OpenAI最新大模型ChatGPT-5正式发布，却被指有瑕疵？

来源：网络整理 时间：2025-08-10 作者：佚名 浏览量：

8月8日凌晨，北京时间，OpenAI备受瞩目的最新大型模型GPT-5正式对外公布。与此同时，谷歌举办的首次大模型国际象棋竞赛中，o3选手以4比0的战绩击败Grok 4，夺得了冠军。这原本应是OpenAI双喜临门的时刻，然而，这款备受关注的软件产品，很快就被网友指出存在一些微小的不足之处。

尽管大型模型的能力持续快速提升，然而，其进步的速度似乎正在逐渐减弱，难以再给人带来那种令人惊叹的体验。这并非OpenAI自身的问题，从某种角度来看，这也并非完全是件负面的事情，因为之前的期望已经被过分夸大了。然而，不管怎样，在当前算法框架的限制下，AI大型模型可能正逐渐接近其发展的极限。

GPT-5水平如何？

GPT-5作为OpenAI今年备受瞩目且多次延期推出的重要产品，今日终于披露了一些令人信服的评估结果，这些数据充分展示了其推理能力的显著提升。

在AIME 2025的数学能力测试中，GPT-5 Pro在启用推理功能并借助Python工具的支持下，取得了全满分的好成绩。即便没有使用这些工具，GPT-5 Pro依旧以96.7的高分脱颖而出，而GPT-5标准版也以94.65分的成绩稳居前列，这两者的得分均远超o3的88.9分。

在编程领域，GPT-5在SWE-bench Verified测试中取得了74.9分的高分，这一成绩超过了o3的69.1分，以及4o的30.8分。

在博士级别的科学知识测评GPQA Diamond中，纯依靠GPT-5 Pro的推理能力，未借助任何工具，成功取得了88.4分的高分，这一成绩刷新了历史纪录。

在多模态领域，GPT-5的得分达到了84.2分，这一成绩略高于o3的82.9分。

在极具挑战性的“人性终极测试”中，GPT-5 Pro与GPT-5的表现显著，未借助工具的情况下，前者得分高达30.7分，后者也有24.8分，这一成绩相较于o3的14.7分有了显著提升。

大模型竞技场LM Arena的评分结果已经公布，GPT-5在所有单项比赛中均取得了第一名的好成绩。

此外，GPT-5在推理模式下的幻觉现象数量仅为o3的六分之一，并且在成本控制上，其token输出量可降低至原来的50-80%。

这些数据都证明，GPT-5算得上是一次成功的大版本升级。

然而，令人感到尴尬的是，在发布会结束之后，网友们很快察觉到GPT-5在解决一道极其基础的方程时再次出现了计算上的失误。

看起来，GPT-5还是没能解决小数比大小的问题。

OpenAI的发布会PPT中存在一些小纰漏，这一情况引发了网友们的广泛讨论。众人注意到，在该图表中，柱状图的高度数据存在显著偏差，然而，他们并未能确定这一错误是人为疏忽所致，还是AI在生成过程中产生的。

_赛琳娜惊艳的照片_夺冠挑战

有网民指出，在解释机翼产生升力的原理时，GPT-5引用了一种普遍存在的错误看法。当然，将这类问题归咎于人工智能似乎过于严厉。

马斯克坚称，尽管如此，Grok 4在ARC-AGI测试中依然击败了GPT-5。

做题好是不是真的好？

那么，我们如何评估GPT-5的实际能力？近期举行的大规模模型国际象棋竞赛，或许为我们提供了一个极佳的参照。

在今天清晨结束的激烈对决中，OpenAI的o3团队以4比0的比分战胜了Grok 4，成功赢得了冠军头衔。尽管Grok 4在前两轮比赛中表现抢眼，但在决赛阶段，随着比赛进程的深入，Grok 4的棋力逐渐显现出下滑的趋势。

在首局比赛中，Grok 4出乎意料地舍弃了自己的棋子，且并未从中得到任何显著的补偿，同时，Grok 4在推理论证时也未对这一举动给出任何解释。

尽管他在昨天的半决赛中表现出色，甚至有过一次100%正确率的精彩棋局，然而，回顾整个比赛，他仍不可避免地犯了一些低级错误。

或许有人会提出疑问，AI参与棋类比赛，这究竟能够体现出什么？是胜负仅由它们所采用的训练数据量大小来决定吗？DeepSeek在棋艺上或许不尽人意，但它在作诗方面是否反而更胜一筹呢？

实际上，若仅仅执着于对弈或吟诗的技艺高低，这表明并未真正领悟谷歌选择此类竞赛方式的深层逻辑。

此次国际象棋赛事的重点，不在于对大型模型计算能力的检验，而在于对其推理水平的评估。

若大型模型在经过众多棋局的学习后展现出卓越的棋艺，那么这只能说明其记忆或计算能力出众，而这一点早在2017年AlphaGo就已经验证过了。

这些通用的大型模型并未经过针对棋谱的专项训练，故而它们通常只能依赖记忆在棋局初期运用一些经典的布局。然而，随着棋局进入中后阶段，这些模型便难以再从人类棋谱中获取灵感，其思维框架也并不像AlphaGo那样专门为棋局设计。于是，在此阶段，AI的推理过程与人类并无二致，都是通过语言逻辑来预测棋盘的走势。

这种没有使用工具的数学考试，同样具有相似的功能：检验人工智能运用人类逻辑进行计算的能力，而非依赖特定的机器算法。

AlphaGo抑或是其他计算工具，这类人工智能在特定领域展现出了无与伦比的实力，却缺乏广泛的适用性，无法应对其他问题。唯有借助人类逻辑推理能力的模型，才能够在人类社会中实现最佳的泛化效果。

即便在这一点上，我们发现无论是o3、Grok 4，抑或是最新迭代的GPT-5，尽管它们在多数情况下能处理复杂问题，却仍不免会犯出对人类而言显得简单的错误。这表明，在当前的Next Token Predicting模型中，此类问题仍难以彻底根除，同时也暗示着它们与实现AGI的终极形态尚有相当长的路要走。

显然，OpenAI并不想外界对其期望过高。在此次发布会上，OpenAI投入了更多精力来展示GPT-5在特定领域应用的能力，比如创作小游戏、解答健康相关问题。这些展示旨在促进AI与人类之间的和谐共处与有效协作。

分享到：

上一篇：深夜写字楼三盏灯亮，35+的你还在埋下一篇：基金限购潮不断，中欧多只产品加入，原

OpenAI最新大模型ChatGPT-5正式发布，却被指有瑕疵？

用微信扫一扫