美国开放人工智能研究中心(OpenAI)近日宣布对其应用程序编程接口(API)进行重大更新,正式引入新一代语音合成与转录模型。
据官方披露,核心升级产品gpt-4o-mini-tts不仅实现了语音生成拟真度的跨越式提升,更首次支持开发者通过自然语言指令实时调控音色、语调与情感表达。
区别于传统参数调节模式,新模型允许开发者以"用兴奋的语调朗读"、"模仿青年播音员声线"等日常语言下达指令,系统即可动态调整声纹特征。OpenAI技术团队演示显示,该模型能精准解析"略带沙哑的科幻旁白"等抽象描述,并在0.3秒内生成匹配音频,较此前版本响应速度提升40%。
官方文档显示,gpt-4o-mini-tts支持48kHz采样率与神经声码器技术,信噪比指标较行业平均水平优化18分贝,可服务于有声书录制、影视配音等高端场景。
OpenAI透露,此次升级得益于自研的 "声纹解耦 "算法,使音色特征与语义理解模块实现分离训练。开发者既可单独微调音色库,也可结合语言模型定制行业专用语音助手。
相关文章
2025-03-2520阅读
2025-03-2520阅读
2025-03-2520阅读
2025-03-2520阅读
2025-03-2520阅读
2025-03-2520阅读
2025-03-2520阅读
2025-03-2520阅读
2025-03-2520阅读
2025-03-2520阅读