热点：

AI多模态新篇章来临，智谱AI CogVLM2小参数展现高性能

2024-05-23 10:10:46 [ 中关村在线原创 ] 作者：新闻快讯

继去年发布并开源VisualGLM-6B和CogVLM之后，智谱AI宣布近期将推出新一代多模态大模型CogVLM2。这款模型以其19B的参数量，在性能上接近或超越了GPT-4V。

据悉，CogVLM2系列模型在多个关键指标上实现了显著提升，如在 OCRbench 基准上性能提升32%，在TextVQA基准上性能提升21.9%，且模型具备了较强的文档图像理解能力（DocVQA）等。此外，CogVLM2支持8K文本长度和高达1344*1344的图像分辨率，同时提供中英文双语的开源模型版本。

AI多模态新篇章来临，智谱AI CogVLM2小参数展现高性能

CogVLM2 继承并优化了上一代模型的经典架构，采用了一个拥有50亿参数的强大视觉编码器，并创新性地在大语言模型中整合了一个70亿参数的视觉专家模块。这一模块通过独特的参数设置，精细地建模了视觉与语言序列的交互，确保了在增强视觉理解能力的同时，不会削弱模型在语言处理上的原有优势。这种深度融合的策略，使得视觉模态与语言模态能够更加紧密地结合。

值得注意的是，尽管CogVLM2的总参数量为190亿，但实际激活的参数量仅约120亿，这得益于精心设计的多专家模块结构，显著提高了推理效率。此外，CogVLM2能够支持高达1344分辨率的图像输入，并引入了专门的降采样模块，以提高处理高分辨率图像的效率。

在多模态基准测试中，CogVLM2的两个模型，尽管具有较小的模型尺寸，但在多个基准中取得 SOTA性能；而在其他性能上，也能达到与闭源模型（例如GPT-4V、Gemini Pro等）接近的水平。

AI多模态新篇章来临，智谱AI CogVLM2小参数展现高性能

开发者可以通过GitHub、Huggingface、魔搭社区和始智社区下载CogVLM2的模型，团队还透露，GLM新版本会内嵌CogVLM2能力，在智谱清言App和智谱AI大模型MaaS开放平台上线。

代码仓库：

· Github：https://github.com/THUDM/CogVLM2

模型下载：

· Huggingface：huggingface.co/THUDM

· 魔搭社区：modelscope.cn/models/ZhipuAI

· 始智社区：wisemodel.cn/models/ZhipuAI

Demo体验：

http://36.103.203.44:7861

CogVLM2 技术文档：

· https://zhipu-ai.feishu.cn/wiki/OQJ9wk5dYiqk93kp3SKcBGDPnGf

本文属于原创文章，如若转载，请注明来源：AI多模态新篇章来临，智谱AI CogVLM2小参数展现高性能https://news.zol.com.cn/873/8737854.html

猜你喜欢
最新
精选
相关

手机版阅读即时更新

点击加载更多内容

中关村在线首页新闻中心首页

热门搜索

苹果发布会 AWE 台北电脑展 mwc

热词：智能穿戴汽车科技三菱空调

24小时热文
本周热评

精品图赏

推荐问答

提问

论坛精选
最热回答

摄影
手机
硬件
笔电
平板

0

下载ZOL APP
秒看最新热品

内容纠错