马斯克的背水一战,大获全胜!
在刚刚举行的发布会上,备受期待的xAI的重要产品Grok 4,终于亮相了。
而它,可以说是全球最聪明的AI!
不仅超越了大多数人类研究生,甚至比博士都好。
左右滑动查看
左右滑动查看
发布会全程1个小时,下面是太长不看的简单总结:
现在,SuperGrok的用户已经能够使用了,普通版每月费用为30美元,Heavy版每月费用为300美元。
同时,Grok 4 API已正式对所有开发者开放,它还会登录第三方云平台。
刚从政坛上铩羽而归,却在AI界王者归来。
果然,马斯克还是那个传说中打不败的男人。
完整直播可点击观看
20万块GPU,成绩刷爆HLE
在各种考试和基准测试中,Grok 4的成绩惊人。
比如,它在SAT中每次都能拿满分,即使从未见过这些题目。
在GRE考试里,它在所有学科领域都能取得近乎满分的成绩,这些学科领域有人文学科,有语言学科,有数学学科,有物理学科,还有工程学科 。
可以这样说,在所有的学科领域当中,Grok 4比几乎全部的人类研究生都更加聪明 。
怎么做到的?马斯克进行了揭秘。
首先,Grok 4的训练时间和Grok 2相比,Grok 4的训练时间达到了Grok 2的100倍。
从Grok 2发展到Grok 3,xAI投入的主要是预训练所需的算力,从Grok 3发展到Grok 4,大量的算力已被投入到推理以及强化学习当中。
通过训练Grok 2,团队第一次大规模扩展了预训练。
这使他们认识到,要是对数据消融、基础设施以及算法做更精细的处理,那么预训练的规模能够再提高10倍,进而打造出最顶尖的预训练基础模型!
网友大声呼喊,xAI在强化学习方面投入的算力,居然和预训练的一样多,这实在是太疯狂了!
这就是原因所在,xAI花费巨额资金,建造起了世界级超算Colossus超算,该超算配备有10万块H100 。
若能够收集到可验证结果的奖励数据,便能够训练模型,使其从第一性原理出发展开思考,进行推理,纠正自身错误,这便是Grok 2推理能力的来源。
那么,接下来,要是将Colossus超算的20万GPU全部投入,会出现什么情况呢?
答案就是——Grok 4的诞生!
在「人类最后考试」HLE中,Grok 4直接取得了优异成绩,成绩十分惊人 。
HLE一共有2500道问题,这些问题覆盖了多个学科,在今年早些时候刚发布的时候,大多数模型的准确率得分仅仅是个位数 。
原因就在于,HLE的考题极其困难,比如下面这些题目,其中一道是关于范畴论中自然变换的数学题,还有一道是关于电环化反应的有机化学题,另外还有一道是从希伯来语原文中区分闭音节和开音节的语言学题。
显然,这些题目已经达到了博士级,甚至更前沿的难度。
几乎没有哪个人类,能够答对全部这些问题,还能取得高分。要是能答对5%,那就算是人群中极其聪明的人了。
然而,Grok 4在HLE的各个领域,都达到了博士的水平,甚至比大多数人类博士生还要出色,因为大多数人类博士生很可能会不及格 。
当然,如果要讲Grok 4当前存在什么不足之处,那就是尚未发明出新的技术,也没有发现新的物理学。
但马斯克持有这样的观点,这仅仅是个时间方面的问题,最早在今年年末的时候,Grok将会发明出新的技术,到了明年它会发现新的物理学 。
海量算力,训出全球最聪明AI
团队研究者透露,实际上在最初的时候,Grok 4的准确率仅处于个位数 。
但投入的算力越来越多,奇迹发生了!最终,它做出了HLE中的难题,难题占比为四分之一,而且这是在没有工具辅助的情况下 。
Grok 4被赋予了工具使用能力,工具使用被直接融入训练过程,此后,Grok 4的性能开始了惊人的暴涨。
而且,目前Grok 4还未使用任何公司级的强大工具。
给它提供企业级的工具,例如特斯拉或Space X所使用的有限元分析,还有计算流体力学,以及碰撞模拟,另外还有高精度的物理模拟器,如此一来,毫无疑问,Grok 4还会发生颠覆级的改变!
若将Grok与擎天柱相结合,那么它能够与真实世界展开互动,能够提出假设,还能够亲手验证真伪。
「重量级」Grok Heavy登场
除了算力方面的问题,我们还面临着一大难题需要解决,那就是怎样突破数据瓶颈。
RL的原则是,要找到大量有挑战性的强化学习问题,要有可靠的信号,能告诉模型它做对了,要有可靠的信号,能告诉模型它做错了。
然而,如今我们快要找不到可以使用的测试题了!大多数人类解决不了的难题,对于AI来说已经开始变得很容易解决了。
好在,我们有一个绝佳的裁判。这个裁判就是现实。物理学是终极法则。对AI最终的推理测试是现实世界。
让我们进行这样的设想,要是单个AI智能体能够解决40%的问题,那么同时运行多个智能体又会怎样呢?
这就是所谓的测试时计算,随着它不断扩展,Grok 4已经能够解决HLE中超50%的纯文本题目。
要是并行生成多个人工智能智能体,Grok 4 Heavy便诞生了!
这些智能体会独立开展工作,它们会互相比较各自所取得的成果,进而决定哪一个更好。一旦有智能体发现了关键的解决方案,便会将其分享给其他智能体,最终它们借助交流,得出最终的答案。
这就是Grok 4显得「Heavy」的缘由,是由于测试规模扩大了一个数量级,并且计算规模也扩大了一个数量级。
· Grok 4 Heavy惊人演示
Grok 4 Heavy已经进化了,它不止会考试,还能解决真实世界中各种刁钻的问题!
我们能够使其对当下美国职业棒球大联盟各队伍的夺冠赔率进行预测。
它可以计算出来,洛杉矶道奇队是今年有望夺冠的热门队伍,其获胜的概率是21.6% 。
并且,我们还能让它生成两个黑洞碰撞的可视化图像。
在下图中能够看到,两个黑洞相互旋进,之后合并,最终到达铃振阶段,这个碰撞过程大致是正确的。
尤为精彩的是,它采用了后牛顿近似法,而不是去计算黑洞中心附近的广义相对论效应。
也就是说,它开展了一次真实的模拟,针对该使用的物理常数做了相当多的推理。

另外,它还能发现X上头像最诡异的xAI员工。
要知道,最神奇的地方就在于,它竟然理解了什么是「诡异」。
要是说Grok 4存在什么弱点,那就是当下它处于「部分失明」状态,其图像理解能力较弱,生成能力也比较弱。
令人期待的是,Grok 4是xAI当前正在训练的第六版模型,第七版模型也已经处于训练进程之中了!
对于所有AGI模型来说,最权威的测试就是ARC-AGI了。
直播前24小时,ARC - AGI团队接到了xAI的电话,随后开始了Grok 4的跑分测试。
结果显示,Grok 4是唯一一个成绩突破10%的模型。
具体而言,Grok 4(Thinking)在ARC-AGI-2上实现了SOTA的刷新,其准确率为15.9% 。
在ARC - AGI - 1上,它取得了66.7%的成绩,同时,Grok 4达成了每美元智能成本的最优化。
GPT和Grok 4现场飚语音
此外,研究人员对Grok 4的「语音模式」进行了改进,延迟率直接减少了一半,并且新增了两种全新的音色。
Sal:拥有深沉的声线
Eve:音色优美的英伦女声,能演绎丰富的情感
接下来,直接进入演示。xAI公司的员工打开Grok并询问,“现在有数百万人正在观看我们的直播,你感到兴奋吗?”
Eve似乎真的身处直播现场,她激动地宣称,这情形如同站在老维克剧院的舞台之上,能看到台下是人山人海 。
它还会低声细语,说了一些能够让xAI员工不再紧张的话。
不仅如此,Eve在现场表演了一段歌剧,这段歌剧十分优美,并且她还能够即兴表演,随时更换曲调,这使得听众陶醉其中 。
更有趣的是,xAI员工为了测试Grok 4的反应速度,直接让GPT和Grok进行同台对决。
任务是,我说一句,你说一句,跟读数字。
GPT的反应较为迟缓,它没有依据指令进行跟读,而是自主说了一些不相关的话。
此时,Grok的表现令人惊艳,一步一步跟着读了下来。
最后,研究人员总结称,自Grok模型上线后,在过去八周里,端到端延迟实现了提速,提速幅度为2倍,还新增了5种不同音色,活跃用户量增长显著,增长了10倍。
足见,Grok语音功能正在飞速发展。
Grok 4卖货,年入47亿填补GPU巨销
那么,Grok 4在现实生活中能做什么?
赚钱!!!
在Vending-Bench商业场景的基准测试里,Grok 4有长期运营自动售货机的能力,而且它在榜单中处于首位 。
在此过程中,它需要完成库存管理任务,它还得与供应商进行谈判,它也要制作定价策略等任务。
这些任务看起来很简单,然而却要求模型进行“长期持续运营”,只有Grok 4能够实现盈利,其净资产还是所有模型的两倍 。
发布会上,马斯克以半开玩笑的方式表示,这下GPU算力开销有解决办法了,只需要部署100万台自动售货机,年收入就能达到47亿美元 。
看来,下一步Grok 4也要为自己打工了。
此外,Grok 4出现了,这会在生物医药、金融等跨领域带来突破,还会重塑商业AI范式。
如下demo所见,Grok正成为企业级的智能Copilot,它拥有256k的上下文窗口,具备前沿的多模态推理能力,拥有实时的数据搜索功能,还具备企业级的安全能力。
4小时,肝出爆款射击游戏
更让人感到兴奋的是,Grok 4在人工智能游戏实时生成这个领域,有着非常广阔的发展前景。
现场,员工展示了AI游戏设计师Danny Limanseta,他在极限4小时内,制作出了一款第一人称射击游戏。
马斯克做出预言,首个真正优质的AI电子游戏有可能在明年出现,今年或许能看到时长半小时的可观看的AI剧集,首部AI电影很有可能在明年诞生 。
在未来的路线图里面,xAI有这样的计划,要发布编码模型,要发布多模态智能体,还要发布视频生成模型。
发布会临近尾声时,屏幕上呈现出一本书名,这本书是道格拉斯·亚当斯所著《银河系搭车客指南》的第四部,书名为《再见,谢谢所有的鱼》 。
果然,还是那个我们熟悉的科幻迷马斯克。
文明奇点已至
马斯克激动地表示,我们正处在智能大爆炸的起始点,奇点时刻已然来临,这是人类历史上最振奋人心的时代。
而在这个时候,最为重要的事情是,打造出一个优秀的AI,打造出一个善良的AI,让它能够在最大程度上追求真理。
要是将AI视作一个超级天才般的孩子,那它最终必定会比人类聪慧,而我们所能做的,便是从一开始就给它灌输正确的价值观,使它去追求真实、正直与善良。
给予AI算力,配备正确的工具,最终要与物理世界进行互动,到那时,我们的经济体量将会是现在的数千倍,甚至数百万倍!
马斯克表示,要是将文明进程视为完成卡尔达肖夫等级的百分比,那么我们距离1级文明的10%还差得远,或许仅仅完成了1%或者2% 。
1级文明可利用整个行星的能源,2级文明能利用整个恒星的能源,3级文明会利用整个星系的能源。
如果文明没有自我毁灭,我们便会朝着2级文明迈进。与之相比,我们当下的经济水平,会如同穴居人向火里投掷木棍那般原始。
马斯克承认,亲手创造出这样一个远远超越人类自身的智能,这也让人有些不安,它对人类到底是好是坏?
最终,他说服了自己,这个AI很可能是好的,即便不是,自己也要活到亲眼见证这一切发生的那一天。
马斯克,背水一战
如今,马斯克真的是破釜沉舟,背水一战了。
原本是特朗普竞选的最大功臣,近来却成了“大而美法案”的最大输家,“特马同盟”彻底崩塌,马斯克似乎已无牌可出了。
首先,“大而美法案”出台后,7500美元的电动汽车购车税收抵免提前到2025年9月30日终止,此后,特斯拉每年利润损失将高达17亿美元。
DOGE前期付出了努力,然而这些努力,随着大而美法案里大规模的赤字扩张,最终都白费了。
马斯克在政坛失意,这使得他在全美业务的关键布局受到连累,这些关键布局涵盖电动汽车、Space X、脑机接口、加密货币等领域,进而导致其商业利益全面受损 。
在这种背景下诞生的Grok 4,可以说是马斯克最后的希望。
终于,在这次发布会上,他使用Grok 4向全世界宣告,他手中还有最后一张牌 。
Grok团队中,华人学者占据半壁江山
参考资料:
请你明确一下具体的改写要求,比如对这段内容进行润色、扩写、根据其进行描述等等,仅给出一个链接无法进行改写呀,请补充相关句子内容以便我准确完成任务。


Copyright C 2018All Rights Reserved 版权所有 丽水招聘网 鄂ICP备2025091810号-6
地址:丽水市经济开发区生态产园集聚区 EMAIL:
Powered by PHPYun.