行业首个:8B参数面壁小钢炮MiniCPM-V4.5开源,号称“最强端侧多模态模型”

来源: aicg搜索 日期:2025-09-09 11:15:24
aicg搜索首页AI教程资讯 → 行业首个:8B参数面壁小钢炮MiniCPM-V4.5开源,号称“最强端侧多模态模型”

8月27日消息,面壁智能8月26日宣布开源8B参数的面壁小钢炮MiniCPM-V4.5多模态旗舰模型,成为行业首个具备“高刷”视频理解能力的多模态模型。

MiniCPM-V4.5号称高刷视频理解、长视频理解、OCR、文档解析能力同级SOTA,且性能超过Qwen2.5-VL72B,号称“最强端侧多模态模型”。

面壁智能介绍称,此前主流的多模态模型在处理视频理解任务中,因为平衡算力、功耗等因素,通常采取1fps抽帧,即每秒只能截取1帧画面进行识别和理解。虽然一定程度上保证了模型推理效率,但也因此缺失了绝大部分视觉信息,降低了多模态大模型对动态世界「精细化」的理解。

MiniCPM-V4.5是行业首个具备高刷视频理解能力的多模态模型,通过将模型结构从2D-Resampler拓展为3D-Resampler,进行三维视频片段的高密度压缩,在同等视觉Token量开销下的情况下,最大可接收6倍视频帧数量,达到96倍视觉压缩率,是同类模型的12-24倍。

MiniCPM-V4.5通过显著增加抽帧频次,从看「PPT」变成理解「动态画面」,面对一闪而过的画面,MiniCPM-V4.5要比Gemini-2.5-Pro、GPT-5、GPT-4o等代表性云端模型看得更准、更细。

在MotionBench、FavorBench两项体现高刷视频理解能力的榜单中,MiniCPM-V4.5达到同尺寸SOTA,且超过Qwen2.5-VL72B,实现越级领先水平。

MiniCPM-V4.5凭借8B参数,在图片理解、视频理解、复杂文档识别等多模态能力上再次刷新能力上限。

图片理解性能上,MiniCPM-V4.5在OpenCompass测评中,领先GPT-4o、GPT-4.1、Gemini-2.0-Pro等众多闭源模型,甚至超过Qwen2.5-VL72B,实现越级领先。

视频理解性能上,MiniCPM-V4.5在LVBench、MLVU、Video-MME、LongVideoBench等榜单中,均达到同级最佳水平。

在复杂文档识别任务中,MiniCPM-V4.5在OmniDocBench榜单的OverallEdit、TextEdit、TableEdit三项指标上,均取得了通用多模态模型同级别的SOTA表现。

此外,MiniCPM-V4.5同时支持常规模式和深度思考模式,实现了性能与响应速度的平衡,常规模式在绝大部分场景下提供出色的多模态理解能力,深度思考模式则专注于应对复杂与复合型推理任务。

在视频理解榜单VideoMME、以及单图OpenCompass测试中,MiniCPM-V4.5达到同级SOTA水平,显存占用、平均推理时间等方面实现领先。

其中,在覆盖短、中、长三种类型的视频理解评测集Video-MME上,MiniCPM-V4.5采用3帧打包策略进行推理,时间开销(未计算模型抽帧时间)仅为同级模型的1/10。

附模型开源链接:

Github:https://github.com/OpenBMB/MiniCPM-o

HuggingFace:https://huggingface.co/openbmb/MiniCPM-V-4_5

ModelScope:https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5

读完这篇文章后,您心情如何?

  • 0 喜欢喜欢
  • 0 顶
  • 0 无聊无聊
  • 0 围观围观
  • 0 囧
  • 0 难过难过
相关资讯
推荐阅读
网友评论

热门评论

最新评论

发表评论

昵称:
表情: 高兴 可 汗 我不要 害羞 好 下下下 送花 屎 亲亲
字数: 0/500 (您的评论需要经过审核才能显示)
相关推送
1百度网盘云一朵查看 2Piggy To查看 3美图AI海报设计查看 4AutoBackend----ai后端开发助手查看 5妙鸭相机查看 6咻图AI查看 7 通义万相查看 8PromptAppGPT查看
AI使用攻略
更多+

CG艺术长廊 | AI技术前沿 | 创新应用案例 | 行业深度解析 | 搜索技巧指南 | 社区互动论坛 | AI教程资讯 | 网站地图

Copyright 2009-2016 //www.aisoh.cc/ 版权所有