OpenAI升级语音生成API:自然语言操控+拟真声效双突破

资讯 » 新科技 2025-03-23

美国开放人工智能研究中心(OpenAI)近日宣布对其应用程序编程接口(API)进行重大更新,正式引入新一代语音合成与转录模型。

据官方披露,核心升级产品gpt-4o-mini-tts不仅实现了语音生成拟真度的跨越式提升,更首次支持开发者通过自然语言指令实时调控音色、语调与情感表达。

区别于传统参数调节模式,新模型允许开发者以"用兴奋的语调朗读"、"模仿青年播音员声线"等日常语言下达指令,系统即可动态调整声纹特征。OpenAI技术团队演示显示,该模型能精准解析"略带沙哑的科幻旁白"等抽象描述,并在0.3秒内生成匹配音频,较此前版本响应速度提升40%。

官方文档显示,gpt-4o-mini-tts支持48kHz采样率与神经声码器技术,信噪比指标较行业平均水平优化18分贝,可服务于有声书录制、影视配音等高端场景。

OpenAI透露,此次升级得益于自研的 "声纹解耦 "算法,使音色特征与语义理解模块实现分离训练。开发者既可单独微调音色库,也可结合语言模型定制行业专用语音助手。



免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿,经过编辑审核收录,不代表头部财经观点和立场。
证券投资市场有风险,投资需谨慎!请勿添加文章的手机号码、公众号等信息,谨防上当受骗!如若本网有任何内容侵犯您的权益,请及时联系我们。