互联互通社区,专注于IT互联网交流与学习,致力于打造最具价值的IT互联网智库中心。

DeepSeek R1深度解析及算力影响几何  

发布时间:2025-02-09 18:03:42.0
导读:

中信建投证券发布的《DeepSeek R1深度解析及算力影响几何》报告聚焦国内模型深度推理发展状况与算力影响。


DeepSeek的R1模型展现出强大深度推理能力,R1-Zero通过纯粹强化学习证明大语言模型仅靠强化学习也可行,R1在此基础上经多次微调与强化学习优化,在数学、编程等推理任务中成绩优异,还通过蒸馏提升小模型推理能力,且成本较低。其他模型同样成果显著,Kimi 1.5通过长上下文扩展等创新,在多模态和推理能力上表现卓越,其推理框架和Long2short技术优化了算力;阿里的Qwen2.5系列模型,经高质量数据集构建、上下文训练改进、扩大监督微调数据范围和两阶段强化学习,性能大幅提升,在多个领域领先 。这些模型实现低算力需求得益于多方面优化,如DeepSeek模型采用高度稀疏架构、FP8混合精度训练框架、流水线并行策略、跨节点无阻通信设计和多token预测技术,实现算法、框架和硬件协同。当前大模型行业从生成式向深度推理型转变,整体需求从预训练向后期训练和推理转移。尽管部分模型现阶段能以较少算力实现高性能,但从长远看,随着模型发展,在深度推理阶段,对算力的需求仍将呈爆发式增长,因为算力对提升人工智能模型性能至关重要,是推动模型不断进步和拓展应用的关键因素。

下载付件
温馨提示:本平台所有资料与知识星球平台同步发出,用户可根据需要选择平台加入,无需重复加入。

#免责声明#

来源: 中信建投,互联互通社区推荐阅读,版权归作者所有。文章内容仅代表作者独立观点,不代表互联互通社区立场,转载目的在于传递更多信息。如涉及作品版权问题,请联系我们删除或做相关处理!
推荐报告