热点：

阿里云发布新一代多模态模型Qwen2.5-Omni

2025-03-27 08:40:27 [ 中关村在线原创 ] 作者：拿铁不加冰

阿里云发布新一代多模态模型Qwen2.5-Omni

3月27日，阿里云宣布推出新一代端到端多模态旗舰模型Qwen2.5-Omni。这款模型专注于全方位多模态感知能力的提升，能够高效处理文本、图像、音频和视频等多样化的输入形式，并以实时流式响应的方式生成文本及自然语音合成输出。

据官方介绍，Qwen2.5-Omni采用了创新的Thinker-Talker双核架构。其中，Thinker模块负责对文本、音频、视频等多种模态输入进行深度处理，生成高层次的语义表征以及相应的文本内容，类似于“大脑”的功能；而Talker模块则承担了类似“发声器官”的角色，通过流式方式接收来自Thinker模块的实时输出语义表征与文本，进而流畅地完成离散语音单元的合成。

在测试中，Qwen2.5-Omni在图像、音频、音视频等多个模态场景下的表现均优于规模相近的单模态模型以及封闭源模型，例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro，展现出其在多模态处理领域的卓越性能。

本文属于原创文章，如若转载，请注明来源：阿里云发布新一代多模态模型Qwen2.5-Omnihttps://news.zol.com.cn/965/9653670.html

猜你喜欢
最新
精选
相关

手机版阅读即时更新

点击加载更多内容

中关村在线首页新闻中心首页

热门搜索

苹果发布会 AWE 台北电脑展 mwc

热词：智能穿戴汽车科技三菱空调

24小时热文
本周热评

精品图赏

推荐问答

提问

论坛精选
最热回答

摄影
手机
硬件
笔电
平板

0

下载ZOL APP
秒看最新热品

内容纠错