在人工智能领域,多模态理解一直是一个挑战,因为它要求模型能够同时处理和理解来自不同源(如文本、图像、声音等)的信息。上海AI Lab最近开源的InternVL 1.5模型,正是为了应对这一挑战而生。下面,我们将深入探讨这一模型的主要特点和性能表现。

InternVL 1.5的主要特点:

  1. 多模态性能提升:InternVL 1.5在OCR、多模态、数学和多轮对话等18个基准测试中的8个中取得了最先进的结果,显示了其在多模态理解方面的卓越性能。
  2. 强视觉编码器:模型采用了一种持续学习策略,显著提升了视觉理解能力,并且能够在不同的大型语言模型(LLM)中迁移和重用。
  3. 动态高分辨率:InternVL 1.5能够根据输入图像的长宽比和分辨率,动态地将图像划分为不同大小的图块,最高支持4K分辨率的输入。
  4. 双语数据集:通过收集和注释高质量的双语数据集,InternVL 1.5在OCR和中文相关任务中表现出色。
  5. ViT-MLP-LLM架构:模型采用了与流行的多模态大模型相似的架构,通过MLP映射器将预训练的视觉编码器与语言模型结合在一起,并通过Pixel Shuffle技巧减少了视觉标记的数量。

InternVL 1.5的性能表现:

06231634-2024-05-06T15:17:03.png

  • 在与闭源模型的比较中,InternVL 1.5在四个特定基准测试中超越了Grok-1.5V、GPT-4V、Claude-3 Opus和Gemini Pro 1.5等模型,尤其是在OCR相关的任务中。
  • 模型在不同分辨率下展现出强大的鲁棒性,能够根据任务需求调整分辨率,以实现最佳性能或节省资源。
  • 在General QA、OCR-related QA、科学理解、中国传统文化、目标定位和多图像对话等任务上,InternVL 1.5与GPT-4V进行了对比,展示了其出色的答案和在某些情况下的局限性。

实验与数据集:

  • 论文中详细列出了InternVL 1.5在预训练和微调阶段使用的任务和数据集,这些数据集都是公开可访问的。
  • 为了构建大规模的OCR数据集,研究人员利用PaddleOCR对Wukong和LAION-COCO数据集的图像执行了中文和英文的OCR。

体验InternVL 1.5:

  • 上海AI Lab提供了一个官方demo,让感兴趣的用户可以亲自体验InternVL 1.5的强大功能。

未来展望:

尽管InternVL 1.5在多模态理解方面取得了显著进步,但模型在某些情况下仍然会产生幻觉问题,这提示了未来研究的方向。

参考资源: