旗舰多模态模型 MiniCPM-V,超强端侧多模态通用能力
发布时间:2024-10-20 08:41:41 浏览:166
最强端侧多模态
实时视频理解、多图、单图,3SOTA
端侧全面对标超越 GPT-4V 新时代
3项重磅功能,首次上端
实时视频理解
多图联合理解
多图ICL视觉类比
轻!快!端侧友好!
量化后端侧内存仅 6 GB
端侧推理速度高达 18 tokens/s,快 33%
支持 llama.cpp、ollama、vllm 推理
其他
180 万像素高清 OCR,超越 GPT-4o、GPT-4V 和 Gemini 1.5 Pro 等
极致高效,最高多模态像素密度,两倍于 GPT-4o 的单 token 编码像素密度
自研RLAIF-V 高效对齐技术,极低幻觉 可信多模态行为,优于GPT-4o 和 GPT-4V
B站讲解视频:
https://www.bilibili.com/video/BV1sM4m1172r/?vd source=cd29f4e20ef69babd26f4f34cc7c8b3f
HF 地址: https://huggingface.co/openbmb/MiniCPM-V-2_6
Github 地址: https://github.com/OpenBMB/MiniCPM-V/tree/main