通义发布并开源首个支持影视级多场景配音的多模态大模型-新科技-资讯-头部财经

通义发布并开源首个支持影视级多场景配音的多模态大模型

资讯 » 新科技 2026-03-16

3月16日，通义实验室发布并开源了首个支持影视级多场景配音的多模态大模型 Fun-CineForge。此外，还配套开放了高质量数据集的构建方法。通过“数据 + 模型”的一体化设计，Fun-CineForge 正尝试解决影视级 AI 配音长期面临的关键问题。

据介绍，Fun-CineForge 首先构建了一套自动化的数据集生产流程，可以将原始影视素材转化为结构化多模态数据。

该流程包括人声分离、文本转录、长视频分段、音视频联合说话人分离等，其中，基于通用大模型思维链的双向矫正机制，大幅降低了转录文本和说话人分离结果的错误率。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿，经过编辑审核收录，不代表头部财经观点和立场。
证券投资市场有风险，投资需谨慎！请勿添加文章的手机号码、公众号等信息，谨防上当受骗！如若本网有任何内容侵犯您的权益，请及时联系我们。

ISLE 2026成功引领智慧显示与系统集成新趋势

2026-03-160阅读
三部门：到2030年全国燃料电池汽车保有量较2025年翻一番力争达到10万辆

2026-03-160阅读
淘宝闪购申请蜂鸟车电商标

2026-03-160阅读
数智赋能巴渝大地重庆信息通信业交出2025年高质量发展答卷

2026-03-160阅读
iOS 27 和 macOS 27 最新内部版本依然专注于 Liquid Glass 界面

2026-03-160阅读
苹果争取在 iOS 27 中实现系统级“Liquid Glass”滑块功能

2026-03-160阅读
iOS 27 与 Snow Leopard 类似首要任务是提升性能和稳定性

2026-03-160阅读
中国大模型90后第一人将亮相英伟达GTC，揭秘Kimi技术突破

2026-03-160阅读
三星MX事业部拉响警报，恐迎首次亏损！

2026-03-160阅读
打字高手专属：HHKB推出无刻印版键盘/键帽

2026-03-160阅读