DeepSeek引领国产芯片标准的探索:FP8能否成为行业新标杆?
国产大模型企业DeepSeek日前在资本市场引起关注,引领业新宣布其新一代模型DeepSeek-V3.1采用了UE8M0 FP8 Scale参数精度,国产这是芯片为即将推出的下一代国产芯片设计的。此消息迅速推动了相关芯片公司的标准标杆股价上涨,如寒武纪等。否成
然而,为行在2025算力大会上,引领业新业内专家对FP8的国产讨论虽然热烈,但情绪较为谨慎。芯片尽管资本市场反应积极,标准标杆技术人员更关注FP8在模型训练及生态标准化中的否成实际应用及其面临的挑战。
什么是为行FP8,它有哪些优势?引领业新
在AI模型的训练与推理中,降低数值精度是国产提升计算效率的一种常见方法。目前,芯片AI训练通常使用FP32(32位浮点数),逐渐转向FP16(16位浮点数),而FP8则将数值宽度进一步压缩至8位。摩尔线程AI Infra的总监陈志指出,FP8的显著优势在于算力效率的提升和网络带宽的减少。例如,FP32需要4字节的数据传输,而FP8仅需1字节,这意味着在相同能耗下,AI芯片可以训练更大的模型,或缩短训练时间。
当然,FP8并不是全能的解决方案。现场一位来自国产芯片公司的从业者表示,低精度的训练推理速度虽快,但数据范围过小可能导致计算错误。不同计算场景对精度的需求不同,某些操作如矩阵乘法对精度要求不高,可以使用FP8;而累加或其他函数则需要更高的精度。因此,行业内多采用“混合精度训练”,依据计算类型动态选择精度,以平衡效率与准确性。
DeepSeek能否推动新标准?
DeepSeek-V3.1采用的UE8M0 FP8 Scale标志着国产AI芯片向新阶段迈进。虽然寒武纪等相关公司的股价受此利好影响上扬,但业内人士的态度相对谨慎。业内普遍认为,DeepSeek的举动为国内算力厂商提供了机会,FP8代表了算力优化的一种合理方向,但并非灵丹妙药,关键在于实际效果。
陈志指出,大模型对精度的容忍度逐步提升,从FP32到FP16再到FP8,显示了行业验证的过程。DeepSeek所展示的FP8在大规模模型上的可行性为未来的研究与训练提供了新方向。此外,这一发展意味着国产算力生态亟需同步升级,从芯片、框架到应用层的全闭环适配。
陈志还提到,精度标准的变化需要上下游厂商联动优化。摩尔线程已经提前进行FP8研究,以此作为技术储备,力求在生态调整中占据主动地位。他补充道,大模型训练推理的核心瓶颈不仅限于算力规模,还包括能耗、稳定性和集群利用效率,目前国内已有万卡规模的集群部署,但仍需向更高效的智算集群演进,以解决效率与容错问题,确保集群的可靠性。因此,提升单卡效率和优化集群调度同样至关重要。
本文转载自财联社,XM外汇官网编辑:陈宇锋。
相关阅读
-
美股动态 | 诺和诺德(NVO.US)因新减重药物数据上涨超2.9%
-
Salesforce宣布裁减约4000个客户支持岗位,采用人工智能技术
-
周三亚市美元兑日元上涨0.35%,周二上涨超过1%。日本央行加息的可能性不确定,以及通胀减缓和政局动荡,再加上美元指数重新回到98关口,导致日元承压。后续需关注美国就业数据以及关税对日本经济的影响。从技术面来看,RSI指标显示买盘力量强劲,重点关注149.00的阻力位和148.00的支撑位。若未突破149.00,仍然可视为美元兑日元短期反弹。
-
法国气象局:今夏为该国有记录以来第三热夏季
-
美联储降息预期上升,金价创新高
-
以下是一张图系列之最新黄金原油外汇股指“枢纽点+多空持仓信号”一览,含图表解读及文字解读。从最新净多头%与昨日净多头%(上个交易日净多头%)进行数据对比,解读出各类持仓信号总共覆盖:净多头扩大、净多头减小、净空头无变动、净空头转为多空平衡等13种信号,并根据实际数据对比结果展示其中的几种。