近期,香港中文大学多媒体实验室联合上海人工智能实验室的研究团队提出了一种全新的统一多模态学习框架——Meta-Transformer。该框架通过统一学习无配对数据,实现了对12种不同模态的信息进行处理,为当前多模态学习提供了强大的工具,同时为多模态领域带来了新的设计思路。
31112049-2.png

Meta-Transformer的设计

Meta-Transformer具有三个核心部分:Data2Seq标记模块、统一的模态共享编码器和多个下游任务学习模块。

Meta-Transformer的创新

  1. 统一的模态共享编码器

与先前的模型如CLIP使用不同的图像和文本编码器、BEIT-3的部分共享编码器框架相比,Meta-Transformer的核心创新在于一个所有模态完全共享的编码器。这个设计在编码器层面实现了对12个模态的统一学习,证明了多模态数据完全共享编码器的可行性。共享编码器有助于减小由不同网络参数引入的表征差异,实现对任意模态信息的通用处理能力。
Meta-Transformer的设计在处理文本、图像、点云、音频、视频、红外、超光谱、X射线、表格、图形、时间序列和惯性测量单元(IMU)数据等多种模态方面都取得了突破,这拓宽了未来多模态工作的设计思路。
31112130-3.png

  1. 无需配对数据:更加灵活的训练方式

当前许多多模态工作依赖于配对的多模态数据来实现两个模态之间的语义对齐,但是这限制了多模态工作推广到更广泛的数据模态。为了解决这一限制,Meta-Transformer提出了Data2Seq方法,将不同模态的原数据嵌入到一个共同编码空间,并转换为各自对应的令牌序列。这样,任一模态的数据都可以用于训练Meta-Transformer感知相应的模态的能力。实验表明,在缺少配对数据训练场景下,Meta-Transformer展现了优异性能。

  1. 更多模态:通向模态通用感知

Meta-Transformer不仅仅侧重于视觉和语言这样的常见模态,它能够对于12种不同的数据模态提供统一的学习框架,包括文本、图像、点云、音频、视频、红外、超光谱、X射线、表格、图形、时间序列和IMU数据。这种广泛的数据模态覆盖,使得Meta-Transformer的应用范围得到了极大的拓展,而且具备易扩展、低成本、高训练效率的优势。

Meta-Transformer的实验结果

Meta-Transformer在多个任务和数据集上取得了令人瞩目的实验结果。在文本理解任务中,虽然并不总是优于其他先进模型,但在情感、释义、复制、推理和回答任务方面取得了相对较高的得分。在图像理解任务中,Meta-Transformer在图像分类、目标检测和语义分割等方面优于其他模型,并在零样本分类下表现突出。对于点云、音频、视频、时间序列和表格数据等多个任务,Meta-Transformer也取得了非常好的结果。
31112233-4.png
在不同领域的实验结果显示出Meta-Transformer的多功能性和有效性。虽然在某些任务上并没有登顶排行榜,但Meta-Transformer的参数少、模型效率高的优势是显著的。它为多模态智能在教育、医疗、娱乐等领域提供了更智能、更便捷、更丰富多元的服务。

总结

Meta-Transformer是一种统一的多模态学习框架,通过统一学习无配对数据实现对12种不同模态的信息处理。它在文本、图像、音频、视频、点云、时间序列、表格等多种任务上都展现了优异的性能。Meta-Transformer为未来多模态大模型的发展提供了强大工具,同时也为实现通用多模态智能提供了新的设计思路。在AI技术服务于全社会的基础设施中,Meta-Transformer的多模态感知理解能力将为教育、医疗、娱乐等领域带来更智能、更丰富多元的服务。

论文地址: https://github.com/invictus717/MetaTransformer
源代码:https://arxiv.org/abs/2307.10802