电话:
关闭
您当前的位置:首页 > 职场资讯 > 焦点访谈

岑俊:阿里巴巴达摩院具身智能大模型算法研究员,解析WorldVLA模型

来源:网络整理 时间:2025-07-04 作者:佚名 浏览量:

_回归模拟_模型融合voting

岑俊,担任阿里巴巴达摩院具身智能大模型算法研究员,其博士学位是香港科技大学所授予。他的研究重点集中在:具身智能领域中的VLA模型,以及世界模型的构建。

阿里巴巴达摩院创新性地推出了WorldVLA,该模型首次将世界模型与动作模型(或称VLA模型)进行整合。WorldVLA实现了文本、图片、动作理解与生成的全面自回归,成为一个统一的综合模型。

_模型融合voting_回归模拟

研究简介

近年来,视觉-语言-动作(VLA)模型在机器人动作建模领域得到了显著的发展,这一进展已成为该研究领域的核心趋势。这类模型往往是在对多模态大型语言模型进行大规模预训练之后,通过增加一个动作输出头部或特定的动作模块,从而实现动作的自动生成。这些多模态大型语言模型在感知与决策方面表现出色,因此,基于它们的视觉语言动作(VLA)模型在多种机器人任务中均展现出较强的泛化性能。然而,这些模型存在一个明显的不足之处:它们通常未能对动作本身进行深入探究。在现有技术中,动作仅被视作输出结果来处理,并未被纳入输入进行细致的分析与建模。与此相对,世界模型(World Models)能够依据当前的观察和动作预测未来的视觉状态,进而同时把握视觉信息和行为的变化规律。即便拥有这样的长处,世界模型却不能直接产生动作指令,这一特点使得它在那些要求明确动作规划的场合,功能上存在一定的不足。

为了克服VLA模型及其对应世界模型的不足,我们设计了一种名为WorldVLA的新模型——这是一个基于自回归机制的统一动作、图像理解和生成模型。如图所示,WorldVLA采用了三个独立的编码器,分别对图像、文本以及动作数据进行处理。不同类型的token被赋予相同的词汇库,这便使得在统一的语言模型框架内,能够统一执行涉及多种模态的理解与创作任务。

模型融合voting__回归模拟

世界模型部分能够根据输入的动作生成相应的视觉表现,以此学习环境中的物理变化规律。这种对动作的解析以及对物理世界的构建,对于动作模型的决策极为关键。同时,WorldVLA 中的动作模型亦能增强对视觉信息的理解,从而进一步提高了世界模型在图像生成方面的精确度。这种机制的双向强化功能,让整个系统在图像与动作的理解与生成上,具备了更强的稳定性和更广泛的覆盖面。

此外,已有研究揭示了动作分块技术与并行解码方法对动作模型性能的显著作用。但实验结果显示,在自回归模型连续生成多个动作的过程中,性能出现了下滑。这主要是因为,预训练的多模态语言模型主要与图像和文本信息打交道,对动作数据的接触相对较少,因此在动作生成任务上的泛化能力存在局限。在自回归模型里,后续动作的生成是建立在前一个预测的基础之上,若预测出现失误,这种错误会随着时间的推移而不断扩散并加剧。为了克服这一难题,我们设计了一种动作注意力掩码的方法(action attention masking strategy),在生成新的动作时,我们会选择性地排除掉之前动作的相关信息。此方法有效减轻了错误逐级累加的困扰,并在动作分解生成任务中实现了显著的性能飞跃。

在LIBERO基准测试中,我们的WorldVLA模型在抓取成功率方面,相较于采用相同核心网络的传统动作模型,实现了4%的提升。同时,与传统的世界模型相比,WorldVLA在视频生成质量上更为出色,FVD(Fréchet Video Distance)指标下降了10%。这些数据充分证实了,将世界模型与动作模型相结合所获得的协同效应,彰显了图像与动作统一理解和生成框架的优越性。在动作分块生成任务中,采用传统自回归方法会导致抓取成功率降低10%至50%。然而,通过引入我们的注意力掩码策略,性能的下降得到了显著改善,抓取成功率相应提升了4%至23%。

研究方法

VLA模型具备从图像中解读动作的能力;世界模型则能基于当前图像与动作预测下一帧的画面;WorldVLA模型将这两项功能结合,实现了对图像与动作的相互理解和创作,具体如图所示。

模型融合voting__回归模拟

WorldVLA采用独立的编码器对图像、文本和动作进行分别处理,同时确保这些模态共用一套词汇表,以此在统一的大语言模型框架内实现跨模态的整合建模。这样的设计不仅显著提高了动作生成的精确度,还增强了图像预测的精确性。在训练过程中,WorldVLA利用Action Model数据和World Model数据。Action Model 通过接收图片和文本指令作为输入,进而生成相应的动作,其数据格式规定如下:

World Model 会依据当前帧的图像以及动作信息,构建出后续帧的图像,具体的数据格式如下:

当一次性输出多个动作时,若采用默认的自回归模式,其效果往往不尽如人意。其根本原因在于,动作模态并未包含在多模态大模型的预训练过程中,导致其泛化能力相对较弱。因此,在生成多个动作时,容易出现误差累积的现象。为了攻克这一难题,WorldVLA 研发了一种名为 attention mask 的策略,该策略确保在生成动作时,只能观察前一张图片,而无法看到之前的动作,以此有效消除动作累积误差,具体情形可参照下方的图示。

_模型融合voting_回归模拟

实验结果

LIBERO基准测试的实验数据显示,即便未经过预训练,其表现也超越了那些必须依赖预训练的全自回归模型OpenVLA。

_回归模拟_模型融合voting

图中展示了针对action model所进行的消融实验成效。通过对比第二行与第一行,以及第五行与第四行的数据,我们可以观察到,引入world model之后,action model的表现得到了显著提升。从Row3的数据中我们可以观察到,若采用系统预设的注意力掩码,部分任务的完成率会有所降低;然而,Row4的数据显示,我们研发的注意力掩码能够显著提高任务的整体成功率。

_模型融合voting_回归模拟

行动模型可视化,通过文本与图像的结合,转化为具体动作。

通过观察下方的图像,我们可以明显看出,WorldVLA能够遵照既定指令执行相应的操作。

模型融合voting_回归模拟_

模型融合voting__回归模拟

_模型融合voting_回归模拟

世界模型可视化技术,通过将动作与图像结合,进而生成新的图像。

通过观察下方的图像,我们可以发现WorldVLA具备根据动作与图像内容来构建后续帧画面的能力。

_回归模拟_模型融合voting

模型融合voting__回归模拟

回归模拟__模型融合voting

分享到:
客服服务热线
7x24小时服务
关于我们
产品与服务
收费与推广
网站特色
咨询反馈
微信公众号
手机浏览

Copyright C 2018All Rights Reserved 版权所有 丽水招聘网 鄂ICP备2025091810号-6

地址:丽水市经济开发区生态产园集聚区 EMAIL:

Powered by PHPYun.

用微信扫一扫