MiniCPM-V 2.6：端侧最强多模态模型

作者: Jack Cui

时间: 2024-08-09

分类: 大语言模型

标签: None

阅读(1186)

👍推荐(0)

8月6日，MiniCPM-V 开源项目重磅更新了「小钢炮」 MiniCPM-V 2.6。仅 8B 参数，单图、多图、视频理解全面超越GPT-4V，稳坐端侧最强多模态铁王座。8B 参数的模型很有意义，这种小模型可以在手机端侧落地。

MiniCPM-V 2.6 刷新了端侧多模态复杂推理能力。

比如这道 GPT-4V 官方演示经典命题：调整自行车车座。这个对人很简单的问题对模型却非常困难，它非常考验多模态模型的复杂推理能力和对物理常识的掌握能力。

仅 8B 的 MiniCPM-V 2.6 展现出顺利完成这项挑战的潜力，通过和模型进行多图多轮对话，它清晰地告知完成调低自行车车座的每一个详细步骤，还能根据说明书和工具箱帮你找到合适的工具。
12181736-2024-08-12T10:17:34.png
甚至还能根据截图的报错信息，帮你改 bug：
12181743-2024-08-12T10:17:42.png
根据表格的截图信息，做数据分析、统计：
12181751-2024-08-12T10:17:49.png
MiniCPM-V 2.6 是基于 SigLip-400M 和 Qwen2-7B 构建，共 8B 参数。

支持图片和视频的理解，官方提供的在线 demo 也提供了接口，不仅能处理图文、还是处理视频。

MiniCPM-V 2.6 在最新版本 OpenCompass 榜单上（综合 8 个主流多模态评测基准）平均得分 65.2，以 8B 量级的大小在单图理解方面超越了 GPT-4o mini、GPT-4V、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 等主流商用闭源多模态大模型。

端侧非常友好，量化后端侧内存仅占 6 GB；端侧推理速度高达 18 tokens/s，相比上代模型快 33%。并且发布即支持 llama.cpp、ollama、vllm 推理；且支持多种语言。

代码：https://github.com/OpenBMB/MiniCPM-V
体验：https://huggingface.co/spaces/openbmb/MiniCPM-V-2_6
模型：https://huggingface.co/openbmb/MiniCPM-V-2_6

MiniCPM-V 2.6：端侧最强多模态模型

最新文章

分类

标签云

阅读排行榜

推荐排行榜

回复排行榜

最近回复

邮件订阅