预训练的视觉语言模型(VLM)凭借其卓越的图文联合建模能力,在众多任务中展现出显著潜力,并已成为众多现下广泛采用的多模态嵌入模型的核心基础。
然而,这类采用因果注意力机制的多模态嵌入模型在多模态嵌入任务上面临三个主要局限:
将预训练的因果视觉语言模型转化为功能强大的双向多模态编码器,这一任务在多模态理解的研究领域中构成了一个关键性的挑战。
为了应对这些困难,迫切需要研制一种全新的架构,这种架构能够高效地处理大规模的非标注数据,并显著增强多模态嵌入模型在双向理解和泛化方面的能力。
中国人民大学、微软亚洲研究院、斯坦福大学以及普林斯顿大学等学术机构的研究人员共同研发了MoCa框架,该框架运用双阶段技术,成功将原本基于单向注意力预训练的视觉语言模型(VLM)转变为一种高效的双向多模态编码模型。
该研究论文的地址为:https://arxiv.org/abs/2506.23115,请查阅。
项目网站链接为:https://haon-chen.github.io/MoCa/,请访问此地址以获取更多信息。
MoCa通过不断对各类模态进行预训练,并实施异构对比微调,成功克服了传统模型在表达能力、泛化能力和扩展性方面的不足,实现了性能的显著进步。
MoCa:从单向到双向
MoCa框架包括两个核心阶段:
对各类模态进行持续的预先训练,确保模态识别的持续进步。
通过结合随机遮挡的文本与图像片段进行联合重建,即运用了MLM+MAE技术,显著提升了模型在双向跨模态理解方面的能力;同时,该方法还能有效捕捉到更为丰富的跨模态语义信息。
异构对比微调技术,即Heterogeneous Contrastive Fine-tuning,是一种独特的算法方法。
通过采用丰富多样的训练资料,包括长篇文档、特定领域的图文资料以及纯文本等,并结合任务批次的采样方法,有效提升了模型的适应能力和广泛适用性。
采用上述策略,MoCa模型在多模态嵌入双向表征及泛化能力方面实现了显著增强,同时大幅减少了对于高精度标注数据的依赖程度。
实验数据揭示,MoCa在众多标准的多模态基准测试中取得了优异的成绩,特别是在模型规模较小的情况下,其性能甚至超越了规模更大的模型,这一成果为多模态嵌入模型的长远发展打下了坚实的基础。
MoCa框架包含两个关键的技术组件:
针对不同模态的持续预训练(Modality-aware Continual Pre-training)
跨模态双向注意力机制能够高效地捕捉图文之间的深层语义联系,同时弥补了因果模型在单向推理方面的不足之处。
联合运用mask重建技术(即MLM+MAE):通过随机遮挡文本中的词汇和图像部分,促使模型进行双向预测以恢复所缺失的信息;同时,这一方法能充分利用未标注数据的潜力,显著提升模型在跨模态表示方面的能力。
异构对比微调技术,即Heterogeneous Contrastive Fine-tuning,是一种在异构数据集上进行微调的方法。
任务批次采样策略涉及对各类任务批次进行动态选择,旨在保障模型能够灵活应对多种任务和不同领域的应用场景,从而实现高效适应。
通过整合长篇文档、跨领域的图文资料以及纯文本等多种数据形式,我们丰富了数据类型,从而增强了模型的广泛适用性。
这两个组件的紧密配合使得MoCa得以高效地完成从预训练到微调的过程,同时充分挖掘无监督数据的价值,在性能提升和泛化能力方面实现了显著突破。
与传统多模态嵌入框架的对比
MoCa框架相比传统的多模态嵌入模型有着明显优势。
· 传统框架(如mmE5、VLM2Vec)
单纯依赖高质量标注图文对,扩展性低;
以单向因果注意力为主,跨模态表示能力受限;
对新领域、新任务泛化性差。
· MoCa框架

充分利用大规模无标注数据,通过持续预训练显著降低成本;
双向模态交互机制,能更深层次地捕捉图文语义;
丰富的数据类型和任务采样策略,大幅提升泛化性能和扩展性。
因此,MoCa的提出为多模态嵌入领域开辟了一条更为高效、更具广泛适用性的研究途径。
实验效果:以小博大,效果显著提升
研究团队对主流的多模态嵌入基准MMEB以及ViDoRe-v2进行了全方位的评测。
在MMEB基准上
3B的MoCa模型能够实现与目前7B规模基准模型相当的性能标准。
7B的MoCa模型已经达到了当前性能的最尖端(SOTA),并且其表现远超其他现有的模型。
在ViDoRe-v2任务中
MoCa在处理涉及不同语言和多个领域的复杂任务时表现出色,其整体性能已超越现有的顶尖技术。
特别在多语言和专业领域数据泛化能力上表现出明显优势。
实验数据充分证明了MoCa框架在资源有限的情况下仍能保持高效性能,并且展现了其出色的泛化能力。
消融实验
实验结果表明,MoCa的核心模块均展现出其有效性,具体来看,若在针对不同模态的持续预训练或异构对比微调的任一阶段进行剔除,模型的性能便会显著降低,这一发现进一步彰显了MoCa框架中每个组件不可或缺的作用和重要性。
持续预训练的数据规模效应
为了研究持续预训练数据量级对模型表现力的具体影响,相关研究人员开展了专门的实验研究。
实验结果显示,当持续预训练所需的数据量不断加大时,模型在多模态理解方面的能力不断得到增强,然而,这种提升并非无限,而是会出现一定的性能上限。
研究结果表明,在具体应用场景中,我们需要恰当地平衡数据量的大小和计算的开销,这样才能达到性能的最优化。
未来展望
MoCa框架的实践验证了针对不同模态数据,持续进行预训练和采用异构对比微调策略的强大潜力。这种方法不仅显著提高了小规模模型的表现,而且还为更广泛的数据应用和泛化能力的提升打下了坚实的基础。
未来,研究人员计划进一步探索以下几个方面:
经过不懈的奋斗,MoCa框架必定能在多模态嵌入的广阔领域中产生更加广泛和深远的效应。
参考资料:
该研究禁止对特定内容进行修改,并强调了对专有名词的保护,同时确保了相关链接的完整性。


Copyright C 2018All Rights Reserved 版权所有 丽水招聘网 鄂ICP备2025091810号-6
地址:丽水市经济开发区生态产园集聚区 EMAIL:
Powered by PHPYun.