站长之家(chinaz.com)5月20日 消息:面壁智能推出了最新一代端侧多模态模型 minicpm-llama3-v2.5,这款模型具有超强的综合性能,能够超越 gemini pro 和 gpt-4v 等多模态巨无霸。
minicpm-llama3-v2.5在 ocr(光学字符识别)方面取得了 sota 的成绩,能够精准识别难图、长图和长文本。该模型支持30多种语言,并且首次实现了端侧系统级多模态加速,使图像编码速度提升150倍。
此外,minicpm-llama3-v2.5在幻觉能力、复杂推理能力等方面也取得了突出表现,能够在多种场景下进行准确的分析和推理。
总体来说,minicpm-llama3-v2.5展现出了强大的多模态综合能力,为端侧 ai 模型的发展带来了新的突破。
minicpm-llama3-v2.5开源地址:
https://github.com/openbmb/minicpm-v
minicpm 系列开源地址:
https://github.com/openbmb/minicpm
hugging face 下载地址:
https://huggingface.co/openbmb/minicpm-llama3-v-2_5