7月10号MiniMax举办M1技术探讨会，多国学者共话前沿话题

来源：网络整理 时间：2025-07-19 作者：佚名 浏览量：

7月10日，MiniMax在全球范围内成功举办了M1技术研讨会。我们中国团队对此感到由衷的喜悦，因为我们荣幸地组织并启动了这场面向全球学者的开放性技术讨论活动。在会上，来自十几个国家和地区的朋友们跨越地域界限，纷纷加入其中，与M1团队以及全球的专家学者们展开了深入的技术交流。

[id_4974[id_1096917744]741]

遵循开放共享的理念，我们在此将本次研讨会的核心技术见解公布于众，以下为要点概览：

[id_1930689568]

RL能否赋予模型新能力？

强化学习是否能够增强模型的基础功能？众多观点认为，强化学习仅能激发模型在预训练期间已掌握的某些能力或技巧，无法使模型从本质上习得预训练阶段未曾出现的新技能。例如，某些研究指出，强化学习并不能提升模型的pass@k指标。

在开始构建模型之前，我们必须明确其基本功能。一个切实可行的描述是：针对特定的上下文长度，模型在一系列固定问题上，经过无限次尝试后，其成功率的极限值（pass@k，其中k趋向于无穷大）是多少。若该成功率趋近于1，则意味着模型能够处理此类问题。反之，若成功率接近于0，则表明模型无法应对这类问题。若模型的生成长度，亦即模型思考过程之长度趋向于无限，那么强化学习将无法带来任何改变。按照定义，一旦拥有无限长的上下文，那么在理论上，所有能够用自然语言描述的问题，都可以通过有限的采样次数得到解决。

针对特定语境的长度限制，强化学习是否能使模型获得新的技能？答案显然是肯定的。强化学习的作用在于调整模型输出的概率分布。在经过预训练之后，模型可能需要至少10万个token来处理某个问题，然而，通过强化学习的微调，这一数字可能降至1万个token。以模型能够处理的上下文长度为5万个token为例，强化学习确实赋予了模型新的处理能力。

在限定文本长度的前提下，pass@k是一个评估标准。K的数值选择至关重要，它依赖于对模型性能的理解。若将模型能力定义为“模型至少成功解决一次问题”，则应选择较大的k值来评估pass@k；反之，若将标准设定为“模型能否在四次尝试内解决问题”，则应关注pass@4的衡量结果。

目前，Reward构成了RL scaling的关键难题，尤其是对于非结果导向的奖励（non-outcome-based reward）的建模问题，这一点在全球范围内都尚存疑虑。以人类为例，我们能够从他人的文字或反馈中感受到正面或负面的情绪，然而，我们尚未找到一种有效的手段来对这种主观的情感进行精确的建模。

预训练的价值在于更多样化的数据分布

在强化学习（RL）中，预训练的作用究竟是怎样的？假如预训练在特定技能领域，比如编程或数学方面存在不足，那么在后续的RL训练阶段，能否仅依靠RL技术来弥补这些不足呢？

在原则上，只要信息充足，我们便能够用强化学习（RL）来取代其他任何流程。从某种角度来看，预训练不过是强化学习的一个子集。所有的监督学习实际上都可以视为强化学习的特殊形式。目前，强化学习训练期间所需的数据分布，相较于预训练数据，要狭窄得多。这也正是当前预训练所能带来的最大优势——它使得模型能够获取到更为广泛的知识范畴。

在目前这个阶段，预训练的重要性体现在我们能够接触到更加丰富的数据分布。这是因为，当前对于强化学习（RL）训练数据的质量要求相当严格。我们已掌握在特定环境下如何扩展RL训练的方法，比如在奖励明确界定的情况下。然而，RL领域面临的核心挑战之一，便是如何将研究拓展到奖励定义不明确的环境之外。奖励模型或许能提供一种途径，然而，行业内仍在积极寻求更为普适的奖励指示方法。

只在数学和代码上做RL训练，更容易产生幻觉

在通用推理方面，截至今年二月，大部分的RL数据源主要集中数学和编程领域。然而，实际上，仅限于数学和编程环境中进行RL训练，模型更容易出现幻觉现象。这一现象在诸如SimpleQA等事实性基准测试中表现得尤为明显，其性能显著降低，甚至在多学科问答基准如MMLU上，表现也有所下滑。

我们致力于构建通用推理数据集的初衷，是为了生成更多元化的强化学习训练资料。WebInstruct-verified项目致力于为各个领域打造更大规模的RL训练数据，目标在于让模型能在多个领域实现进步，而不仅仅是局限于数学和编程领域。

我们正试图将规模进一步扩大。在此之前，我们通过在预训练数据集中寻找可用的强化学习（RL）数据，已成功将其规模扩展至五十万。目前，我们正尝试通过搜索更大规模的预训练数据集，以获取更多样化的RL数据。同时，我们正采用在训练中期进行RL的方法，而不仅仅是作为后期的训练步骤。

如何让模型用图像思考？

当前众多视觉推理方法，其核心大多聚焦于文本形式的思维链，而视觉部分则被固定为一个ViT编码器，导致模型在图像编码上无法分配更多计算资源。与此同时，诸如Pixel Reasoner等研究正致力于引导模型重新关注图像的特定区域，并对这些区域进行重新编码，以便在关键区域投入更多的计算能力。

这并非提升模型能力的根本途径，目前看来更是一种临时的解决方案。由于现有的视觉编码器能力有限，难以有效处理高分辨率图像，因此我们尝试通过放大图像或采取其他手段来调整图像的表示，随后重新从输入中提取这些表示，并基于此进行推理。目前来看，众多工具，诸如放大、回放帧或突出显示等功能，实际上主要是在提升人们的感知力。

也有一些较为复杂的工具，它们能够对图像进行根本性的改造，例如运用图像生成技术。这种手段已经超出了仅仅增强感知的层面，比如在解决几何问题时绘制辅助线。目前在这方面的成功案例还不是很多，但若有人能够使这种方法行之有效，那么它将代表“借助图像进行思考”的一种更为强大的形式。

我们依然面临着一个核心的难题：如何更高效地对视觉像素进行编码，以及如何在抽象的潜在空间而非实际的像素空间中实现更优的视觉推理——这一点需要特别注意。

潜隐推理或许能带来极大的机遇。众多视觉推理任务，尤其是在机器人或具身智能的领域中，确实迫切需要在三维空间中进行思考。在这些对空间感知有较高要求的场景中，单纯依赖文本推理显然不够理想。许多推理过程都是隐含的，难以用文字明确表达或转化为语言。

当前RL领域最令人兴奋的挑战

RL所遭遇的挑战之一涉及奖励建模，尤其是如何突破那些结果评估难度较高的环境限制。这一突破将显著拓宽RL技术的应用范围。

多智能体领域或许同样关键。然而，现阶段它的发展主要受到基础设施的制约，而非理论研究的推动。在我看来，通过一个中心模型来操控子智能体和使用工具并无二致。提及“多智能体”时，我脑海中浮现的是一个由众多AI模型构成的环境，这些模型在训练过程中彼此进行交互。

AI自动化研究是一个充满活力的领域——它涉及模型的自学习过程。实际上，这一领域始终与通用人工智能（AGI）的概念紧密相连：即模型能够在无需人类直接干预的情况下，实现自我学习和自我优化。

还有刚刚提到的，非Token空间的推理，那里也存在着机会。

_MiniMax M1全球技术闭门会实录：RL、混合架构、长上下文的下一步_MiniMax M1全球技术闭门会实录：RL、混合架构、长上下文的下一步

长上下文是Agent的Game changer

在Agent工作流中，长上下文展现出巨大的应用前景。我们另一位客户正在打造一个复杂的智能体系统，对于他们来说，长上下文窗口堪称革命性的突破。当Agent执行某项任务时，它能够一次性接收整个代码库、API参考文档以及历史交互数据等。此类工作不宜分阶段执行，一旦智能体在执行过程中获取有关项目的更多资讯，其输出成果的质量便会随之提升。

我们有望将目前主要只能独立完成特定任务的智能体，提升至能够统筹复杂项目，并持续保持全面情境意识的智能体。

Nebuis的用户能够从M1这款超长上下文模型中挖掘出真正的潜力，该模型成功开启了众多崭新的企业级应用领域。在此之前，这些领域往往需要采用分段处理的方法，过程既复杂又几乎难以实现。

法律行业的客户需将文件逐份输入大型语言模型，并运用特定技巧以改善搜索与内容管理。然而，这种方法可能导致遗漏散布在随机法律文件某页的关键信息。若采用1M token的上下文窗口，则可一次性整合案件全史、所有相关案例及其他信息资源，从而显著提高服务质量。

Writer公司主要面向全球企业级客户提供服务，其长上下文模型在众多企业级应用中需求旺盛。其中，法律合规分析是其应用最为广泛的领域之一。例如，在处理繁复的合同、电子健康档案或企业年度报告时，需从中挖掘关键条款、辨识潜在风险，并附上相关引文进行归纳总结，这要求拥有极大的上下文窗口。此外，客户研究洞察也是其应用的一个重要领域。对众多调查问卷的反馈或研究文献进行归纳整理，旨在挖掘其中的核心议题，并提炼出若干观点。

长上下文模型在涉及收入与报告的业务中应用广泛。例如，它被用于录入众多项目招标书，从Salesforce系统提取数据，并自动生成回应的第一稿；亦或是在处理基金报告时，需将公司内部研究及第三方市场数据整合。此外，该模型还应用于技术支持与知识管理领域。这是开发者们共同面临的重任——需对工单进行细致的分类处理，对内容管理系统进行内容的更新，亦或是对现有的工作流程中发布的内容进行管理。而要使智能体在此领域内有效运作，则必须具备强大的上下文理解能力。

混合架构将成为主流

与单纯的线性注意力和全注意力机制相比，混合注意力机制（Hybrid Attention）显然具有更大的发展潜力。纯线性注意力机制存在诸多根本性的缺陷，主要在于其状态规模是固定的，这使得它在应对长序列的建模任务时，往往表现不尽如人意。Full Attention虽然赋予了系统一定的灵活性，然而其弊端同样不容忽视：随着序列长度的增加，KV缓存的大小会呈线性增长，同时训练的复杂度也会达到平方级别。当序列长度持续增长，推理和训练的复杂度随之攀升，这便成为了制约系统性能的瓶颈。因此，将这两种机制进行整合，便显得十分自然，于是混合模型（Hybrid Model）便应运而生。

混合架构将成为模型设计的流行趋势，这主要是因为大规模部署和低延迟需求日益增加，使得人们愈发重视推理效率以及模型的推理性能。MiniMax模型的成功更是对此现象的有力佐证。关于如何继续扩大混合注意力架构的应用范围，未来的研究者需深入思考，不能仅仅依靠固定的配比来交替叠加Softmax注意力机制与线性注意力层，或许应当探索更为丰富的混合架构样式。

专注于脱离硬件的算法研究正逐渐降低其吸引力，特别是在LLM这一领域。若某项技术无法实现规模化应用，或者难以高效部署，那么它将难以获得人们的关注并形成发展势头。一个算法不仅需要在理论层面经得起考验，而且还需要在硬件层面——特别是在GPU或TPU等加速器上——实现高效运行。现今的算法研究人员不仅已经，而且理应精通基础的硬件知识，诸如内存层次结构、并行处理技术以及共享内存机制等。此外，他们还需熟练运用诸如Triton之类的底层GPU编程工具。这样的路径才是当前在大型语言模型（LLM）领域进行算法研究的正确选择。

当前混合架构面临的主要难题集中在基础设施层面。尽管混合模型的有效性在去年已经得到了充分证明，然而，鲜有企业愿意投入更多资金进行大范围的验证。直至MiniMax推出了其大型模型MiniMax Text-01，大众才真正认识到混合模型所蕴含的巨大潜力。目前算法的发展已经达到了一个相对稳定的阶段，因此，我们应当将注意力转向为这些新兴机制搭建完善的基础设施。

混合架构推理的前沿实践

在推理领域，随着混合注意力机制的广泛应用，为了在SGLang等推理工具中最大化地利用缓存感知与缓存复用等特性，我们必须为常规架构与混合架构构建一个统一的抽象层次，如此一来，我们便能轻松地将各类优化措施应用于混合模型之中。

此外，MiniMax模型采用的7+1层交错架构可能会引发若干工程难题，尤其是在运用计算图优化技术部署时。这是因为各层的计算与内存访问模式存在差异，进而引发GPU利用率的不均衡。为了应对这一问题，或许需要运用特定技术，例如批处理重叠技术，或者采用更为高级的pipline策略。

在技术层面上，支持混合架构的首要条件是配备一个混合分配器，这一功能在vLLM中已实现。它能有效管理混合架构下的KV缓存——即便我们可能不会将其称作KV缓存，但在混合架构中，依旧存在某种形态的状态。这些状态的存在周期并不与全注意力层的键值缓存保持一致，因此必须考虑如何使其与现行的缓存系统、预填充操作以及解码过程等环节实现有效配合。

其次，引入批处理重叠机制将十分有益。在混合架构中，部分层采用全注意力机制，而另一些层则仅使用线性注意力，这导致了计算资源的不均衡分配。若按顺序进行计算，线性注意力层的计算资源可能会出现未被充分利用的情况。若能将这两部分微批次合并处理，并且确保比例计算准确无误，那么从理论上讲，在任意时间点都能保证有一个微批次正在进行计算密集型的full attention操作，进而实现GPU利用率的最大化。

从生产部署的视角出发，混合架构的推理速度对于实际应用而言极为关键。以某客户为例，他们需要同时处理数十万个token的请求。然而，对于采用二次方复杂度注意力的传统模型来说，在如此大的输入规模和并发需求下，其生成速度会变得极为缓慢。采用DeepSeeker-R1，在同时进行8个请求、每个请求处理10万个token的条件下，用户平均需等待近1分钟方可获得第一个token。相比之下，使用MiniMax模型，所需时间仅为4至5秒，时间差距达到一个数量级。这样的速度是完全可以接受的，同时也使得在生产环境中，以如此庞大的上下文进行在线应用成为可能。

M1背后的Q&A

Q：混合线性注意力会如何影响使用RL的推理模型的性能？

在训练阶段，当我们尝试构建能够处理数万token长度的上下文模型时，遭遇了严重挑战：强化学习训练进展缓慢，奖励信号在短短数百步之后便停止增长。经过深入研究，我们发现问题的根源在于线性注意力结构在此规模下的固有训练不稳定性。这一现象引发了一系列问题，例如某些层的激活值出现异常膨胀，同时导致模型在训练和推理过程中表现出严重的偏差。在解决了该缺陷并对其进行了修正之后，我们才得以顺利地运用强化学习技术对该模型进行训练。

此问题同样揭示了混合线性注意力机制中的一个核心权衡：其计算效率极高，单个token的计算代价极低；然而，为了达到与全注意力模型相仿的性能，往往需要生成更多的token，即更长的推理过程。然而，我们的研究证实，在恰当的规模和推理计算能力下，采用混合注意力机制的模型，其性能完全可以与全注意力架构相媲美。

对未来架构设计的核心启示在于，评估方法的重要性不容忽视。为了实现混合模型与其它模型的公正对比，我们必须在特定任务和既定计算预算的框架内，对性能进行衡量，而不仅仅是依据固定输出长度来评判效果。这样的评估方式，能够提供一种更为全面、更贴近模型实际效率和能力的观察视角。

推理模型是否已经达到具备类似System 2的推理水平以及自我反思的能力？

系统二推理与自我审视，可视为从大语言模型的基本原理中衍生而出，且能够被观察到的特定规律。

其根本动力在于高效运用更广阔的计算资源，即更长的输出，以实现更优的性能。我们所目睹的高阶推理能力，是这些资源拓展的直接后果，而非其根本所在。实际上，为模型赋予更强大的计算力量以“思考”，从而促使复杂模式得以显现。

其次，此类高级推理可被视为一种自动化的提示工程应用。在处理数学、编程等复杂任务时，模型能够自主构建其内部思考流程，从而实际上消除了对人类提供详尽、分步式指导的依赖。

在执行写作等任务时，模型会首先对问题进行细致分析，并且将写作的各个步骤进行专业化的分解。它能够独立完成诸如制定计划以及深入剖析问题等操作。正是这样的能力，使得模型能够通过构建详尽的推理路径，展现出“专家级”的思考方式。

因此，System2的推理与自我反思实际上涉及了如何高效运用并扩充计算资源，这亦是模型自动深入挖掘用户问题的一种体现。

自公司成立伊始，MiniMax 便秉承“与广大同仁携手构建智能”的愿景，不懈努力推进人工智能技术的尖端进步，力求达成通用人工智能（AGI）的目标。我们未来将持续追求卓越，坚守对底层架构及算法进行革新的承诺，并与我们的合作伙伴一道，为全球开源领域不断贡献力量。

Intelligence with Everyone

分享到：

上一篇：深夜写字楼三盏灯亮，35+的你还在埋下一篇：淘宝闪购回应补贴传闻：无0元购刷单，

7月10号MiniMax举办M1技术探讨会，多国学者共话前沿话题

用微信扫一扫