阿里云发布新一代多模态模型Qwen2.5-Omni

资讯 » 新科技 2025-03-27

2025-03-27 08:40:27 作者:

3月27日,阿里云宣布推出新一代端到端多模态旗舰模型Qwen2.5-Omni。这款模型专注于全方位多模态感知能力的提升,能够高效处理文本、图像、音频和视频等多样化的输入形式,并以实时流式响应的方式生成文本及自然语音合成输出。

据官方介绍,Qwen2.5-Omni采用了创新的Thinker-Talker双核架构。其中,Thinker模块负责对文本、音频、视频等多种模态输入进行深度处理,生成高层次的语义表征以及相应的文本内容,类似于“大脑”的功能;而Talker模块则承担了类似“发声器官”的角色,通过流式方式接收来自Thinker模块的实时输出语义表征与文本,进而流畅地完成离散语音单元的合成。

在测试中,Qwen2.5-Omni在图像、音频、音视频等多个模态场景下的表现均优于规模相近的单模态模型以及封闭源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro,展现出其在多模态处理领域的卓越性能。



免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿,经过编辑审核收录,不代表头部财经观点和立场。
证券投资市场有风险,投资需谨慎!请勿添加文章的手机号码、公众号等信息,谨防上当受骗!如若本网有任何内容侵犯您的权益,请及时联系我们。