字节跳动正式发布端到端同声传译模型:准确率接近真人 3秒延迟

资讯 » 新科技 2025-07-24

快科技7月24日消息,今日,字节跳动宣布正式发布端到端同声传译模型Seed LiveInterpret 2.0。

据介绍,这是首个延迟&准确率接近人类水平的产品级中英语音同传系统,在中英同传翻译质量达到业界SOTA的同时,实现了极低语音延迟水平。

字节跳动表示,该模型基于全双工端到端语音生成理解框架,支持中英互译。

可实时处理多人语音输入,像人类同传译员一样以极低的延迟"边听边说",一边接收源语言语音输入,一边直接输出目标语言的翻译语音。


同时,Seed LiveInterpret 2.0还支持0样本声音复刻,沟通更流畅自然。

不过,目前模型主要支持中英互译。

相比传统机器同传系统,Seed LiveInterpret 2.0具有以下四大优势:

接近真人同传的翻译准确率

在多人会议等复杂场景中英双向翻译准确率超70%,单人演讲翻译准确率超80%,接近真人专业同传水平。

极低延迟的"边听边说"能力

翻译延迟可低至2-3秒,较传统机器同传系统降低超60%。

零样本声音复刻

只需采样实时语音信号,便能提取声音特征,用说话人的音色特质实时"说出"外语。

智能平衡翻译质量、延迟和语音输出节奏

根据语音清晰度、流畅度、复杂程度,调整输出节奏,并适配不同语言特性。

模型测评结果显示,在语音到文本同传任务中,Seed LiveInterpret 2.0中英互译平均翻译质量的人类评分达到74.8(评估译文准确率,满分100),较排名第二的基准系统(47.3分)超出58%。


在语音到语音任务中,业界仅3个翻译系统支持该能力,其中Seed LiveInterpret 2.0中英互译平均翻译质量达到66.3分(除评估译文准确率,还评估语音输出时延、语速、发音、流畅性等指标,满分100),远超其他基准系统,达到接近专业真人同传的水平。

同时,大部分基准系统也不支持声音复刻功能。

在延迟表现上,Seed LiveInterpret 2.0在语音到文本场景中,输出首字平均延迟仅2.21秒,在语音到语音场景中,输出延时仅2.53秒,做到了对翻译质量以及时延的均衡。




免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿,经过编辑审核收录,不代表头部财经观点和立场。
证券投资市场有风险,投资需谨慎!请勿添加文章的手机号码、公众号等信息,谨防上当受骗!如若本网有任何内容侵犯您的权益,请及时联系我们。