通义发布并开源首个支持影视级多场景配音的多模态大模型

资讯 » 新科技 2026-03-16

3月16日,通义实验室发布并开源了首个支持影视级多场景配音的多模态大模型 Fun-CineForge。此外,还配套开放了高质量数据集的构建方法。通过“数据 + 模型”的一体化设计,Fun-CineForge 正尝试解决影视级 AI 配音长期面临的关键问题。

据介绍,Fun-CineForge 首先构建了一套自动化的数据集生产流程,可以将原始影视素材转化为结构化多模态数据。

该流程包括人声分离、文本转录、长视频分段、音视频联合说话人分离等,其中,基于通用大模型思维链的双向矫正机制,大幅降低了转录文本和说话人分离结果的错误率。



免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿,经过编辑审核收录,不代表头部财经观点和立场。
证券投资市场有风险,投资需谨慎!请勿添加文章的手机号码、公众号等信息,谨防上当受骗!如若本网有任何内容侵犯您的权益,请及时联系我们。