智谱开源新一代多模态大模型cogvlm2-凯发游戏

站长之家（chinaz.com）5月21日消息:智谱·ai最近宣布推出新一代多模态大模型cogvlm2，该模型在关键性能指标上相较于前一代cogvlm有了显著提升，同时支持8k文本长度和高达1344*1344分辨率的图像。cogvlm2在ocrbench基准上性能提升了32%，在textvqa基准上性能提升了21.9%，显示出强大的能力。尽管cogvlm2的模型大小为19b，但其性能接近或超过了gpt-4v的水平。

微信截图_20240521082943.png

cogvlm2的技术架构在上一代模型的基础上进行了优化，包括一个50亿参数的视觉编码器和一个70亿参数的视觉专家模块，这些模块通过独特的参数设置，精细地建模了视觉与语言序列的交互。这种深度融合策略使得视觉模态与语言模态能够更加紧密地结合，同时保持了模型在语言处理上的优势。此外，cogvlm2在推理时实际激活的参数量仅约120亿，这得益于其精心设计的多专家模块结构，显著提高了推理效率。

在模型效果方面，cogvlm2在多个多模态基准测试中取得了优异的成绩，包括textvqa、docvqa、chartqa、ocrbench、mmmu、mmvet和mmbench等。这些测试涵盖了从文本和图像理解到复杂推理和跨学科任务的广泛能力。cogvlm2的两个模型在多个基准中取得了最先进的性能，同时在其他性能上也能达到与闭源模型相近的水平。

代码仓库:

github:https://github.com/thudm/cogvlm2

模型下载:

huggingface:huggingface.co/thudm

魔搭社区:modelscope.cn/models/zhipuai

始智社区:wisemodel.cn/models/zhipuai

demo体验:

https://modelscope.cn/studios/zhipuai/cogvlm2-llama3-chinese-chat-demo/summary

cogvlm2技术文档:

https://zhipu-ai.feishu.cn/wiki/oqj9wk5dyiqk93kp3skcbgdpngf

面壁智能推出最新一代端侧多模态模型 minicpm-llama3-v2.5

2024-05-211.6万阅读

2024-04-281.4万阅读

2024-04-261.3万阅读

2024-04-296453阅读

2024-05-114089阅读

凯发游戏-凯发ag旗舰厅

it业界

热点视频

站长资讯

好物榜

更多分类

更多主题

智谱开源新一代多模态大模型cogvlm2-凯发游戏

推荐关键词

24小时热搜

大家正在看

面壁智能推出最新一代端侧多模态模型 minicpm-llama3-v2.5

minimax推出人生搭子「海螺 ai」已接入自研多模态大模型

索尼音乐警告科技公司不得“未经授权”使用其内容来训练人工智能

范渊：人工智能安全，行业跨时代革命的开始

ieee：什么是通用人工智能？

苹果的“acdc 项目”正在为数据中心开发人工智能芯片

因争相满足人工智能需求，微软的排放量增长近30%

专家表示openai和亚马逊正在保持人工智能的真实性

蒂姆·库克谈生成式人工智能：「我们拥有使我们与众不同的优势」

伦敦领先私立学校为四岁儿童开设人工智能课程

凯发游戏-凯发ag旗舰厅

it业界

热点视频

站长资讯

好物榜

更多分类

更多主题

智谱开源新一代多模态大模型cogvlm2-凯发游戏

推荐关键词

24小时热搜

大家正在看

面壁智能推出最新一代端侧多模态模型 minicpm-llama3-v2.5

minimax推出人生搭子「海螺 ai」 已接入自研多模态大模型

索尼音乐警告科技公司不得“未经授权”使用其内容来训练人工智能

范渊：人工智能 安全，行业跨时代革命的开始

ieee：什么是通用人工智能？

苹果的“acdc 项目”正在为数据中心开发人工智能芯片

因争相满足人工智能需求，微软的排放量增长近30%

专家表示openai和亚马逊正在保持人工智能的真实性

蒂姆·库克谈生成式人工智能：「我们拥有使我们与众不同的优势」

伦敦领先私立学校为四岁儿童开设人工智能课程

minimax推出人生搭子「海螺 ai」已接入自研多模态大模型

范渊：人工智能安全，行业跨时代革命的开始