8月6日,MiniCPM-V 开源项目重磅更新了「小钢炮」 MiniCPM-V 2.6。仅 8B 参数,单图、多图、视频理解全面超越GPT-4V,稳坐端侧最强多模态铁王座。8B 参数的模型很有意义,这种小模型可以在手机端侧落地。

MiniCPM-V 2.6 刷新了端侧多模态复杂推理能力。

比如这道 GPT-4V 官方演示经典命题:调整自行车车座。这个对人很简单的问题对模型却非常困难,它非常考验多模态模型的复杂推理能力和对物理常识的掌握能力。

仅 8B 的 MiniCPM-V 2.6 展现出顺利完成这项挑战的潜力,通过和模型进行多图多轮对话,它清晰地告知完成调低自行车车座的每一个详细步骤,还能根据说明书和工具箱帮你找到合适的工具。
12181736-2024-08-12T10:17:34.png
甚至还能根据截图的报错信息,帮你改 bug:
12181743-2024-08-12T10:17:42.png
根据表格的截图信息,做数据分析、统计:
12181751-2024-08-12T10:17:49.png
MiniCPM-V 2.6 是基于 SigLip-400M 和 Qwen2-7B 构建,共 8B 参数。

支持图片和视频的理解,官方提供的在线 demo 也提供了接口,不仅能处理图文、还是处理视频。

MiniCPM-V 2.6 在最新版本 OpenCompass 榜单上(综合 8 个主流多模态评测基准)平均得分 65.2,以 8B 量级的大小在单图理解方面超越了 GPT-4o mini、GPT-4V、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 等主流商用闭源多模态大模型。

端侧非常友好,量化后端侧内存仅占 6 GB;端侧推理速度高达 18 tokens/s,相比上代模型快 33%。并且发布即支持 llama.cpp、ollama、vllm 推理;且支持多种语言。

代码:https://github.com/OpenBMB/MiniCPM-V
体验:https://huggingface.co/spaces/openbmb/MiniCPM-V-2_6
模型:https://huggingface.co/openbmb/MiniCPM-V-2_6