最近,DeepSeek 在公布 DeepSeek V3.1 的相关文章讨论区里,透露了关于 UE8M0 FP8 的量化方案,表示这个方案是为未来会面世的国产新处理器进行的规划。
这一事件迅速引起了广泛关注,涉及新一代中国制造的芯片设计,以及大模型在国产芯片训练中的应用,同时带动了人们对大模型量化方法的重视。
FP8,全称是 8 位浮点数,是一种超低精度的数据表示方式,与 FP32(单精度)或 FP16(半精度)等常规浮点格式相比,FP8 能够在尽量维持数值稳定和模型精确度的基础上,进一步减少存储和计算的成本。
除了英伟达,Meta、英特尔、AMD 等公司同样在探索 FP8 的训练和推理应用,这种技术有潜力成为行业内的下一个重要基准。
@梁斌 penny 在微博上的文字引起了比较热烈的讨论:
DeepSeek 采取了一种非常规的 FP8 量化方案,这隐约透露出中国大型模型与本土芯片在软硬件整合上的优化思路,以及与英伟达高度适配模式的不同演进方向。
UE8M0 FP8 具有显著的战略价值。DeepSeek 决定在模型层面首先采用并明确表示采用 UE8M0 格式,将训练与扩展策略与该精度挂钩。这相当于由大型模型端主动制定标准,促使硬件和工具链进行匹配,从而推动了国产软硬件协同发展的生态构建。
不清楚是否偶然,DeepSeek 为国产芯片构思的八位浮点数量化方案刚问世,今日英伟达便在低精度计算方面再度投入力量,但此次并非八位浮点数量化的新突破,而是向四位浮点数量化方向迈出步伐。
英伟达把新推出的 NVFP4 方法运用到事先学习环节,声称可以采用半精度来训练,同时以更低精度实现快速且高效的操作。
英伟达表示,在事先训练环节运用 NVFP4,能够大幅度提高大型语言模型训练的速度,同时增强相关硬件设施的表现力。这并非简单的逐步改进,而是对大规模模型训练流程进行彻底革新的关键举措。
在人工智能制造时期,计算能力是发展的核心动力,数据精确度不再仅是末端考量,而是变成了重要的战略地位,NVFP4 4 比特预训练为效能和扩展性确立了新的参照,促使高性能人工智能模型的研制迈入一个崭新时期。
现阶段,NVFP4 的训练工作尚在研究之中,人们正致力于发掘并检测四维精度在巨量模型事先学习方面的作用。关于 NVFP4 的协作与测试活动正在稳步开展,合作单位涵盖了 AWS、Cohere、Google Cloud、Kimi AI、Microsoft AI、Mistral、OpenAI、Perplexity、Reflection、Runway 等顶尖机构。
英伟达在更低价位段的尝试,网络用户看法纷纭,部分人赞赏 NVFP4 在促进训练效率、削减开支和减少能耗方面的正面效应,相信它可能带动众多领域迈向节能环保的智能新纪元。
有其他人士指出 NVFP4 和 Jetson Thor 的整合或将对实际领域带来重大变革。Jetson Thor 是英伟达近期推出的新一代机器人专用处理器,其显著增强了计算能力,能够适配新兴的具身智能算法,并支援人形机器人等多种构造形式。
两者潜在的结合方式,首先有助于提升训练环节的效能和速率表现,其次能够借助强大的能效比计算资源,在边缘及推理环节发挥优势,整体上促成从学习到应用的全流程高效运转。
但是也有人持不同意见,对于英伟达所说的更加环保,他提出,尽管新的数据格式实现了多项改进,这并不意味着人工智能的整体计算需求以及能源消耗会随之降低,更无法从根本上缓解人工智能不断扩张所引发的能源与资源方面的挑战。
如何理解四比特数值化处理?
四比特量化是将模型里的权重和激活值精度减少到只有四位。这种做法跟通常用的十六位或三十二位浮点数格式比,实现了显著的精度缩减。
在预训练环节实施 4 比特量化极其困难,必须平衡提升训练效率,同时精细调控梯度计算和参数调整,以防模型准确度下降。
为了实现这一目的,英伟达需要借助特定的技术手段和措施,将原本具有高精度的张量,转换成更小的数值范围,而且在这个过程中,必须保证模型的功能不受影响。
更少的比特如何释放 AI 工厂的更大潜能
近年来,人工智能的运算任务量急剧上升,这既体现在大型语言模型在应用推理时的负荷增加,也表现在基础模型在训练前期和后期的发展范围扩大。
随着众多组织不断扩充其计算资源,用以训练和部署参数量达数十亿级别的模型,一个关键衡量标准日益清晰:AI制造中心能够实现多大的token处理速率,进而为更高阶的模型开发创造条件。
推理过程中,精度标准不断演变,从最初的 32 位浮点数,逐步过渡到 16 位浮点数,随后又降至 8 位浮点数,最新阶段则引入了英伟达推出的 NVFP4 格式,专为人工智能推理设计。实际应用证明,诸如后训练量化这类技术,能借助 NVFP4 显著提高推理效率,并且确保计算结果的精确度。
但是,在更靠前的训练环节,难题依然存在,现阶段多数底层数据仍然借助 BF16 或 FP8 来确保稳定和进步。
预训练过程是 AI 工厂中最为耗费计算资源、能源消耗和时间的阶段。计算能力有限,GPU 运行时间宝贵,研发人员必须仔细规划——从每一个数据单元、每一个信息片段,到每一个训练步骤都需要精确考量。这里的处理效率不只是理论上的概念,它直接关系到:能够构建多大型的模型,能够开展多少项研究,以及何时能够取得新的进展。
这就是4 位精度真正具备颠覆性意义的地方。
降低内存占用,加快计算速度,改善信息交互,采用四比特预训练,使得人工智能制造设备在同等设备配置下能够处理更多数据单元。只要选用恰当的压缩技术,其准确度水平可以达到八比特浮点或双倍精度浮点,并且还能大幅提高处理能力。
这意味着:
换言之,降低比特数量不仅能够削减开支,同时也能延伸人工智能制造装置的功能范围。
NVFP4 预训练量化方案

英伟达为了达成四重精度训练目标,设计了一套独特的 NVFP4 训练方法,该方案有效处理了海量数据处理时遇到的范围动态、梯度起伏及数值可靠等关键难题。
Blackwell 是 NVIDIA 首次内置支持 FP4 类型的设计。GB200 与 GB300 机型展现出极高的 FP4 FLOPs 处理能力,借助对低精度矩阵运算的强化,既维持了大模型训练时所需的规模效应,又确保了并行工作的流畅性,进而达成高效的 4 比特训练模式,因此该架构成为未来基于 FP4 技术的 AI 基地执行预训练任务的最佳方案。
图 1 展示了 Blackwell Ultra 的 GEMM 运算测试数据,同 Hopper 时期相比,性能提升了七倍。大型语言模型(LLM)的运作基础在于矩阵运算,特别是在其全连接部分或线性环节,矩阵乘法构成了关键的计算任务。所以,此类操作的执行速度非常关键。
FP4 的精确度有助于加速运算过程,提升执行效率,GEMM 的加速效果十分明显,整个预训练环节因此大幅提速,训练周期得以缩短,同时也使得开发更大规模模型成为可能。
图 1:测试到的 GEMM 运算效率表明,GB300 相较于 Hopper 达成了 7 倍的提速,借助对 FP4 的改进以强化矩阵运算,从而有效促进了中心 LLM 训练环节的进行。
为了达成精准度与效率兼备的训练目标,NVIDIA 的 NVFP4 预训练体系运用了多种核心方法,这些方法经过周密考量,兼顾了效能与准确性,具体涵盖:
1. 利用 NVFP4 的微块缩放增强数值表示
Blackwell 为 NVFP4 增加了本地张量核功能。NVFP4 是一种四比特数制,能用于处理权重和激活数据。它运用了微块缩放方案,具体来说,每十六个四比特单位共用一个统一的缩放参数。MXFP4 将块大小设定为 32 个单位,而 NVFP4 将块大小压缩到 16 个单位,以此降低异常数据的干扰,达成更为精准的缩放效果。这种更精密的缩放方式减小了量化过程中产生的偏差,进而提高了模型的综合准确性。
2. 使用 E4M3 缩放因子的 NVFP4 高精度块编码
缩放因子精度对于量化品质和准确度具有决定性作用。与 MXFP4 不同,后者仅限于 2 的幂次(E8M0)且易造成大的舍入误差,NVFP4 采用带有额外小数位的高精度 E4M3 缩放因子。这种设计能够实现更精密的缩放控制,更充分地运用有限的量化范围,并在区块内部更精确地呈现数值。
3. 重塑张量分布以适应低精度格式
LLM 在进行预训练时,梯度与激活值常常会出现显著的极端情况,这种现象会对低精度量化造成干扰。针对 GEMM 的输入数据进行 Hadamard 变换,能够将其分布调整得更加接近高斯形态,借此削弱极端值的冲击,让张量变得更容易实现高保真度呈现。此类操作对模型架构完全不产生任何影响,可以在前向及反向传播过程中的线性单元里顺利实施。
4. 使用量化技术保持数据一致性
英伟达为保障训练过程平稳且高效,运用了维持前向与反向传递相容的量化方案。诸如对特定二维块进行选择性量化等手段,能够帮助在整个训练过程中确保张量表征的统一。这种相容性对于减少信息偏差、优化收敛过程、提升系统整体稳定性具有决定性意义,特别是在 NVFP4 这种低精度规格下。
5. 通过随机舍入减少偏差
不同于传统方式总是将数值四舍五入至最近的可表示数值,随机处理会依据数值在两个相邻可表示数值间的具体位置,以概率方式决定是向上调整还是向下调整。这一环节对于降低四舍五入误差、维持训练过程中梯度传播顺畅,以及最终提升模型性能具有决定性作用。
图 2:英伟达的 NVFP4 预训练方案,旨在达成高效率且低精度的训练目标。
万亿级 Token 规模下的精度与稳定性
低精度格式要想在大规模预训练中发挥作用,需要兼顾模型精确度,还要确保收敛过程的稳定性。
为了检验高精度计算在大规模模型训练中的适用性,英伟达在一个拥有120亿参数的混合Mamba-Transformer架构模型(12B Hybrid Mamba-Transformer)上实施了FP8和NVFP4的测试。
这个模型仿照了 NVIDIA Nemotron Nano 2, 它在高达 10 万亿 token 的海量数据集里进行学习, 训练过程分几步调整数据来源, 前百分之七十用一种数据组合, 预训练到百分之九十时再换另一种数据组合。
这个 12B Hybrid Mamba-Transformer 模型有个早期版本,当初是用 8 位精度(FP8)来训练的。早先的研究显示,FP8 的准确度跟 16 位精度相差无几,所以 FP8 就成了英伟达用来做参照的基准标准。
接着,英伟达运用 NVFP4 从头训练那款 12B 模型,表明这种新型低精度格式能够承载万兆级 Token 数量的整体预训练。此外,NVFP4 在训练期间展现出可靠的收敛状态,并未出现一般超低精度训练时常见的波动或偏离现象。
下图 3 表明,NVFP4 的验证损失曲线在全部训练期间,与高精度基线(也就是 FP8)的损失曲线极为相似。这种量化方法保证,即便大幅度减少位宽,4 比特预训练的动态效果仍和高精度训练十分接近。
图 3:针对 120 亿参数的 Hybrid Mamba-Transformer 模型,当执行预训练任务时,比较采用 FP8 与 NVFP4 精度处理后,在处理 10 万亿 tokens 数据的过程中,观察到的验证损失曲线,NVFP4 所呈现的曲线形态与 FP8(作为基准)的曲线形态极为相似。
接下来,英伟达采用了 NVFP4 进行预训练,该模型具备 120 亿参数,属于 Hybrid Mamba-Transformer 类型,随后将其同采用更高精度 FP8 的基线方案,在诸多下游应用及智能场景中展开比较。
参照图四可知,NVFP4 在各项指标上的表现均与 FP8 持平,并且在编程方面更为出色,证明了其优越性。这一发现更加坚定了最初的设想:即便面对百亿级别的 token 数据,NVFP4 仍然是大型语言模型预训练的可靠方案,展现了它在高效处理海量数据方面的优势。
图 4:采用 FP8 精度(作为基准)与 NVFP4 精度,针对拥有 120 亿参数的 Hybrid Mamba-Transformer 模型执行预训练,并比较在此阶段下游任务的准确度表现。
聪明训练,而不是一味加码
英伟达指出,NVFP4 格式正在重塑 AI 训练的模式,并有望为速度、效能及目标明确的革新确立新的参照系。借助 4 比特预训练的达成,NVFP4 使 AI 基地得以更迅速、更稳定地扩充,为即将到来的生成式 AI 时期奠定根基。
NVFP4 是一种持续进步的技术,它将为前沿模型团队带来新的可能性,促进节能高效和高性能的 AI 领域发展。依靠计算效率的重大进展,4 位预训练将支持更高级的架构、更大体量的训练和 token 处理,进而为未来的智能系统提供新的活力。
nVFP4能够以十六位精度进行训练,同时兼具四位精度所带来的速度与效率


Copyright C 2018All Rights Reserved 版权所有 丽水招聘网 鄂ICP备2025091810号-6
地址:丽水市经济开发区生态产园集聚区 EMAIL:
Powered by PHPYun.