OpenBMB 发布 MiniCPM-V 4.6 1.3B Instruct,这是一款 1.3B 参数的开源权重视觉语言模型。根据 Artificial Analysis 测评,MiniCPM-V 4.6 1.3B 在 Intelligence Index 上得分 13,是 2B 参数以下开源权重模型中的最高非推理得分。模型支持文本、图像与视频输入,输出为文本,权重采用 Apache 2.0 许可证发布。

MiniCPM-V 4.6 1.3B 评测得分图

MiniCPM-V 4.6 1.3B 刷新小模型得分

MiniCPM-V 4.6 1.3B 的核心亮点是参数效率。Artificial Analysis 称,该模型在 Intelligence Index 上得分 13,高于 Qwen3.5 0.8B 非推理模式的 10,低于 Qwen3.5 2B 非推理模式的 15。在 2B 参数以下开源权重模型中,这一得分目前处于最高水平。MiniCPM-V 4.6 1.3B 是稠密模型,总参数与激活参数均为 1.3B,因此在 Intelligence vs. Total Parameters 图表上形成新的 Pareto 最优点。这个结果说明,小模型竞争不只看绝对分数,也看同等能力需要多少参数。小参数开源权重模型得分对比图

token 效率拉开 MiniCPM-V 与 Qwen3.5 差距

MiniCPM-V 4.6 1.3B 的 token 消耗很低。Artificial Analysis 数据显示,模型运行 Intelligence Index 仅使用 5.4M 输出 token。相比之下,Qwen3.5 0.8B 非推理模式使用 101M 输出 token,约为 MiniCPM-V 的 19 倍;Qwen3.5 0.8B 推理模式使用 233M 输出 token,约为 43 倍。对于端侧推理和低成本服务,token 效率直接影响延迟、费用与能耗。Artificial Analysis 称,在 4B 参数以下且 Index 得分不低于 10 的开源权重模型中,MiniCPM-V 4.6 1.3B 的输出 token 数最低,次低为 Ministral 3 3B 的 15.5M

多模态输入让 1.3B 模型覆盖视频场景

MiniCPM-V 4.6 1.3B 支持原生多模态输入。模型可接收文本、图像与视频,并生成文本输出。Artificial Analysis 测得其 MMMU-Pro 得分为 38%,高于 LFM2.5-VL-1.6B 的 27%,也高于 Qwen3.5 0.8B 非推理模式的 26%。在 2B 参数以下开源权重模型中,38% 是 Artificial Analysis 目前测得的最高视觉推理分数。视频输入在这一参数规模上并不常见,这让 MiniCPM-V 4.6 1.3B 更适合轻量级多模态检索、设备端理解与低成本视觉问答。MiniCPM-V 多模态能力与参数效率图

262K 上下文与 Apache 2.0 许可证

MiniCPM-V 4.6 1.3B 的上下文窗口为 262K,精度为 BF16,权重许可证为 Apache 2.0。OpenBMB 是由清华大学自然语言处理实验室与 ModelBest Inc. 于 2022 年共同发起的中国实验室。原始信息称,模型权重已发布在 Hugging Face。发布时尚无已确认的托管 providers。知识召回仍是短板:AA-Omniscience 得分为 -85,与 2B 以下非推理模型的常见范围一致,接近 Qwen3.5 0.8B 非推理模式的 -89 与 Exaone 4.0 1.2B 非推理模式的 -83。 MiniCPM-V 4.6 1.3B 的重要性在于,它把小参数、多模态、低 token 消耗与开放权重放在同一个模型中。对需要端侧部署或控制推理成本的团队而言,这类模型不一定替代大模型,但可能成为多模态预处理、低延迟分类与设备端问答的实用候选。

评论 ···