微软发布NaturalSpeech2语音模型:打造商业级语音合成体验

资讯 » 新科技 2023-07-27

【头部财经】微软最近发布了一款名为NaturalSpeech2的语音模型,该模型采用创新的设计,在零样本语音合成方面表现出色。微软表示,NaturalSpeech2提供了商业级的语音/歌唱解决方案,为用户提供高质量、多样化的语音合成体验。

与传统的语音转文字(TTS)系统不同,微软的NaturalSpeech2使用连续向量来表示语音,而不是离散标记,从而生成更完整的语音片段,避免了生硬的"棒读"现象,使生成的语音更加自然。

微软进行了一系列演示,展示了NaturalSpeech2在零样本情况下生成具有不同说话人身份、韵律和风格(如唱歌)的语音的能力。实验结果显示,NaturalSpeech2生成的语音与真实语音的韵律几乎一致,在自然度方面与真人语音难以区分。

该语音模型的论文已发布于GitHub,感兴趣的读者可以前往查阅。NaturalSpeech2的推出标志着语音合成领域的重要进展,为用户提供更优质、真实的语音体验,具有广泛的商业应用前景和潜力。微软的创新技术将进一步推动语音合成的发展,并为用户带来更多便利和创造力的体验。




免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿,经过编辑审核收录,不代表头部财经观点和立场。
证券投资市场有风险,投资需谨慎!请勿添加文章的手机号码、公众号等信息,谨防上当受骗!如若本网有任何内容侵犯您的权益,请及时联系我们。