7月18日,NVIDIA的创始人兼CEO黄仁勋与我国大模型初创企业MiniMax(希宇科技)的创始人闫俊杰进行了会面,两人就中美AI行业的现状与未来进行了长达两个小时的深入探讨。据悉,闫俊杰是唯一一位单独受到黄仁勋接见的我国AI创业公司创始人。
据悉,MiniMax 是由前商汤科技副总裁、研究院副院长以及智慧城市事业群首席技术官闫俊杰于2021年所创办。
今年6月17日,MiniMax正式发布了全球首个开源的大规模混合架构推理模型M1。该模型不仅性能超越了国内同类闭源模型,而且与最新版的DeepSeek R1以及国际上的顶尖模型相媲美。此外,M1还具备更为卓越的效率,以及行业内最为突出的性价比。
在阿里巴巴集团、腾讯以及IDG资本的大力支持下,MiniMax公司宣称其研发的Lightning Attention机制,是一种创新性的计算注意力矩阵技术,这一技术能够显著提升训练与推理的效率,使得其M1模型在处理长上下文输入及进行推理尝试时展现出明显优势。
M1的一大亮点在于其强大的支持能力,能够处理高达100万上下文的信息输入,这与闭源模型中的Google Gemini 2.5 Pro相媲美。此外,它还能实现DeepSeek R1的8倍效能,并且提供业内最长的8万Token推理输出。
MiniMax强调,这一成就主要归功于其独创的以闪电注意力机制为核心的混合架构,这一架构在处理长上下文输入和进行深度推理时,展现出极高的效率。以8万Token的深度推理为例,仅需DeepSeek R1约30%的计算资源即可。这一特点赋予了MiniMax M1在训练与推理过程中显著的算力效率优势。

除此之外,MiniMax还推出了一个更高效的强化学习算法CISPO,该算法通过削减重要性采样权重(而非采用传统的token更新方式)来提高强化学习的效率。在AIME的实验中,MiniMax观察到CISPO的收敛速度比包括字节近期提出的DAPO在内的多种强化学习算法都要快一倍,其性能显著超越了DeepSeek早期所采用的GRPO算法。
得益于这两个关键技术的突破,MiniMax的强化训练效率显著提升,远超原先设想。实际上,整个强化学习过程仅用了512块H800芯片,耗时三周,且租赁费用仅为53.47万美金。这一成本比最初预估降低了整整一个数量级。
MiniMax对M1进行了全面的评估,这一评估基于业内广泛认可的17个评测集合。评估结果显示,M1在处理长上下文理解任务方面表现出色,尽管成绩略逊于Gemini 2.5 Pro,但差距极小。此外,在代理工具使用场景(TAU-bench)中,M1甚至超越了Gemini 2.5 Pro。具体评估结果如下:
得益于其相对高效的训练与推理算力,MiniMax决定在MiniMax APP及Web平台均提供不限量的免费服务。
前两种方案在成本效益方面更胜一筹,而第三种方案,即 DeepSeek 模型,则不提供支持。


Copyright C 2018All Rights Reserved 版权所有 丽水招聘网 鄂ICP备2025091810号-6
地址:丽水市经济开发区生态产园集聚区 EMAIL:
Powered by PHPYun.