阿里云宣布推出新一代端到端多模态旗舰模型Qwen2.5-Omni,该模型旨在实现全方位多模态感知处理,进一步拓展人工智能的应用领域。Qwen2.5-Omni具备处理文本、图像、音频和视频等多种输入形式的能力,实现了多模态数据的无缝对接和处理。
Qwen2.5-Omni采用了独特的Thinker-Talker双核架构。Thinker模块负责处理多模态输入,生成高层语义表征及文本内容;Talker模块则负责将语义表征与文本转化为流畅的语音输出。通过实时流式响应,能够同时生成文本与自然语音合成输出,极大提升了用户与人工智能的交互体验。
尺寸方面,Qwen2.5-Omni仅为7B,使其在产业应用上具有广泛的可能性。该模型可轻松部署于等终端智能硬件,为用户提供便捷的智能服务。在权威的多模态融合任务OmniBench等测评中,Qwen2.5-Omni展现出业界领先的表现,全维度超越同类模型,如Google的Gemini-1.5-Pro。
相关文章
2025-03-3118阅读
2025-03-3118阅读
2025-03-3118阅读
2025-03-3118阅读
2025-03-3118阅读
2025-03-3118阅读
2025-03-3118阅读
2025-03-3118阅读
2025-03-3118阅读
2025-03-3118阅读