8月8日凌晨,北京时间,OpenAI备受瞩目的最新大型模型GPT-5正式对外公布。与此同时,谷歌举办的首次大模型国际象棋竞赛中,o3选手以4比0的战绩击败Grok 4,夺得了冠军。这原本应是OpenAI双喜临门的时刻,然而,这款备受关注的软件产品,很快就被网友指出存在一些微小的不足之处。
尽管大型模型的能力持续快速提升,然而,其进步的速度似乎正在逐渐减弱,难以再给人带来那种令人惊叹的体验。这并非OpenAI自身的问题,从某种角度来看,这也并非完全是件负面的事情,因为之前的期望已经被过分夸大了。然而,不管怎样,在当前算法框架的限制下,AI大型模型可能正逐渐接近其发展的极限。
GPT-5水平如何?
GPT-5作为OpenAI今年备受瞩目且多次延期推出的重要产品,今日终于披露了一些令人信服的评估结果,这些数据充分展示了其推理能力的显著提升。
在AIME 2025的数学能力测试中,GPT-5 Pro在启用推理功能并借助Python工具的支持下,取得了全满分的好成绩。即便没有使用这些工具,GPT-5 Pro依旧以96.7的高分脱颖而出,而GPT-5标准版也以94.65分的成绩稳居前列,这两者的得分均远超o3的88.9分。
在编程领域,GPT-5在SWE-bench Verified测试中取得了74.9分的高分,这一成绩超过了o3的69.1分,以及4o的30.8分。
在博士级别的科学知识测评GPQA Diamond中,纯依靠GPT-5 Pro的推理能力,未借助任何工具,成功取得了88.4分的高分,这一成绩刷新了历史纪录。
在多模态领域,GPT-5的得分达到了84.2分,这一成绩略高于o3的82.9分。
在极具挑战性的“人性终极测试”中,GPT-5 Pro与GPT-5的表现显著,未借助工具的情况下,前者得分高达30.7分,后者也有24.8分,这一成绩相较于o3的14.7分有了显著提升。
大模型竞技场LM Arena的评分结果已经公布,GPT-5在所有单项比赛中均取得了第一名的好成绩。
此外,GPT-5在推理模式下的幻觉现象数量仅为o3的六分之一,并且在成本控制上,其token输出量可降低至原来的50-80%。
这些数据都证明,GPT-5算得上是一次成功的大版本升级。
然而,令人感到尴尬的是,在发布会结束之后,网友们很快察觉到GPT-5在解决一道极其基础的方程时再次出现了计算上的失误。
看起来,GPT-5还是没能解决小数比大小的问题。
OpenAI的发布会PPT中存在一些小纰漏,这一情况引发了网友们的广泛讨论。众人注意到,在该图表中,柱状图的高度数据存在显著偏差,然而,他们并未能确定这一错误是人为疏忽所致,还是AI在生成过程中产生的。

有网民指出,在解释机翼产生升力的原理时,GPT-5引用了一种普遍存在的错误看法。当然,将这类问题归咎于人工智能似乎过于严厉。
马斯克坚称,尽管如此,Grok 4在ARC-AGI测试中依然击败了GPT-5。
做题好是不是真的好?
那么,我们如何评估GPT-5的实际能力?近期举行的大规模模型国际象棋竞赛,或许为我们提供了一个极佳的参照。
在今天清晨结束的激烈对决中,OpenAI的o3团队以4比0的比分战胜了Grok 4,成功赢得了冠军头衔。尽管Grok 4在前两轮比赛中表现抢眼,但在决赛阶段,随着比赛进程的深入,Grok 4的棋力逐渐显现出下滑的趋势。
在首局比赛中,Grok 4出乎意料地舍弃了自己的棋子,且并未从中得到任何显著的补偿,同时,Grok 4在推理论证时也未对这一举动给出任何解释。
尽管他在昨天的半决赛中表现出色,甚至有过一次100%正确率的精彩棋局,然而,回顾整个比赛,他仍不可避免地犯了一些低级错误。
或许有人会提出疑问,AI参与棋类比赛,这究竟能够体现出什么?是胜负仅由它们所采用的训练数据量大小来决定吗?DeepSeek在棋艺上或许不尽人意,但它在作诗方面是否反而更胜一筹呢?
实际上,若仅仅执着于对弈或吟诗的技艺高低,这表明并未真正领悟谷歌选择此类竞赛方式的深层逻辑。
此次国际象棋赛事的重点,不在于对大型模型计算能力的检验,而在于对其推理水平的评估。
若大型模型在经过众多棋局的学习后展现出卓越的棋艺,那么这只能说明其记忆或计算能力出众,而这一点早在2017年AlphaGo就已经验证过了。
这些通用的大型模型并未经过针对棋谱的专项训练,故而它们通常只能依赖记忆在棋局初期运用一些经典的布局。然而,随着棋局进入中后阶段,这些模型便难以再从人类棋谱中获取灵感,其思维框架也并不像AlphaGo那样专门为棋局设计。于是,在此阶段,AI的推理过程与人类并无二致,都是通过语言逻辑来预测棋盘的走势。
这种没有使用工具的数学考试,同样具有相似的功能:检验人工智能运用人类逻辑进行计算的能力,而非依赖特定的机器算法。
AlphaGo抑或是其他计算工具,这类人工智能在特定领域展现出了无与伦比的实力,却缺乏广泛的适用性,无法应对其他问题。唯有借助人类逻辑推理能力的模型,才能够在人类社会中实现最佳的泛化效果。
即便在这一点上,我们发现无论是o3、Grok 4,抑或是最新迭代的GPT-5,尽管它们在多数情况下能处理复杂问题,却仍不免会犯出对人类而言显得简单的错误。这表明,在当前的Next Token Predicting模型中,此类问题仍难以彻底根除,同时也暗示着它们与实现AGI的终极形态尚有相当长的路要走。
显然,OpenAI并不想外界对其期望过高。在此次发布会上,OpenAI投入了更多精力来展示GPT-5在特定领域应用的能力,比如创作小游戏、解答健康相关问题。这些展示旨在促进AI与人类之间的和谐共处与有效协作。


Copyright C 2018All Rights Reserved 版权所有 丽水招聘网 鄂ICP备2025091810号-6
地址:丽水市经济开发区生态产园集聚区 EMAIL:
Powered by PHPYun.