热点:

    AI多模态新篇章来临,智谱AI CogVLM2小参数展现高性能

      [  中关村在线 原创  ]   作者:新闻快讯

    继去年发布并开源VisualGLM-6B和CogVLM之后,智谱AI宣布近期将推出新一代多模态大模型CogVLM2。这款模型以其19B的参数量,在性能上接近或超越了GPT-4V。

    据悉,CogVLM2系列模型在多个关键指标上实现了显著提升,如在 OCRbench 基准上性能提升32%,在TextVQA基准上性能提升21.9%,且模型具备了较强的文档图像理解能力(DocVQA)等。此外,CogVLM2支持8K文本长度和高达1344*1344的图像分辨率,同时提供中英文双语的开源模型版本。

    AI多模态新篇章来临,智谱AI CogVLM2小参数展现高性能

    CogVLM2 继承并优化了上一代模型的经典架构,采用了一个拥有50亿参数的强大视觉编码器,并创新性地在大语言模型中整合了一个70亿参数的视觉专家模块。这一模块通过独特的参数设置,精细地建模了视觉与语言序列的交互,确保了在增强视觉理解能力的同时,不会削弱模型在语言处理上的原有优势。这种深度融合的策略,使得视觉模态与语言模态能够更加紧密地结合。

    值得注意的是,尽管CogVLM2的总参数量为190亿,但实际激活的参数量仅约120亿,这得益于精心设计的多专家模块结构,显著提高了推理效率。此外,CogVLM2能够支持高达1344分辨率的图像输入,并引入了专门的降采样模块,以提高处理高分辨率图像的效率。

    在多模态基准测试中,CogVLM2的两个模型,尽管具有较小的模型尺寸,但在多个基准中取得 SOTA性能;而在其他性能上,也能达到与闭源模型(例如GPT-4V、Gemini Pro等)接近的水平。

    AI多模态新篇章来临,智谱AI CogVLM2小参数展现高性能

    开发者可以通过GitHub、Huggingface、魔搭社区和始智社区下载CogVLM2的模型,团队还透露,GLM新版本会内嵌CogVLM2能力,在智谱清言App和智谱AI大模型MaaS开放平台上线。

    代码仓库:

    · Github:https://github.com/THUDM/CogVLM2

    模型下载:

    · Huggingface:huggingface.co/THUDM

    · 魔搭社区:modelscope.cn/models/ZhipuAI

    · 始智社区:wisemodel.cn/models/ZhipuAI

    Demo体验:

    http://36.103.203.44:7861

    CogVLM2 技术文档:

    · https://zhipu-ai.feishu.cn/wiki/OQJ9wk5dYiqk93kp3SKcBGDPnGf

    本文属于原创文章,如若转载,请注明来源:AI多模态新篇章来临,智谱AI CogVLM2小参数展现高性能https://news.zol.com.cn/873/8737854.html

    news.zol.com.cn true https://news.zol.com.cn/873/8737854.html report 1601 继去年发布并开源VisualGLM-6B和CogVLM之后,智谱AI宣布近期将推出新一代多模态大模型CogVLM2。这款模型以其19B的参数量,在性能上接近或超越了GPT-4V。据悉,CogVLM2系列模型在多个关键指标上实现了显著提升,如在 OCRbench 基准上性能提升32%,在TextVQA基准上性能提升...
    • 猜你喜欢
    • 最新
    • 精选
    • 相关
    推荐问答
    提问
    0

    下载ZOL APP
    秒看最新热品

    内容纠错