AI 实时语音深度伪造技术实现突破性进展,诈骗成功率近 100%

资讯 » 新科技 2025-10-26

IT之家 10 月 25 日消息,接触过变声器的朋友应该或多或少听说过,目前主流的语音处理方案都是会有一定延迟时间的,甚至可以说效果越逼真,延迟就越高。

据网络安全公司 NCC Group 最新披露,AI 正推动语音深度伪造技术走向“实时”阶段,攻击者可在通话中即时模仿他人声音,诈骗成功率近 100%。

实时语音伪造技术突破

这项被称为“深度伪造语音钓鱼(deepfake vishing)”的技术,通过 AI 模型学习目标人物的声音样本,可在定制网页界面上由操作者一键启用,实现实时语音“转译”。

研究人员表示,该系统仅需中等计算性能即可运行。在一台搭载英伟达 RTX A1000 显卡的笔记本上,他们实现了不到 0.5s 的延迟,而且没有之前的那种停顿和不自然感。

测试表明,即便只是使用低质量录音,该系统仍能生成极其逼真的语音副本。相比以往需数分钟训练、仅能生成预录音频的旧式语音伪造工具,这一系统可在通话中根据人的意愿实时调整语调和语速。这意味着普通人也可以借助笔记本电脑或智能手机实现类似效果,进一步降低了恶意利用门槛。

测试结果显示欺骗率极高

NCC Group 安全顾问 Pablo Alobera 表示,在经授权的受控测试中,当实时语音伪造技术与来电号码伪造(caller ID spoofing)结合使用时,几乎在每次实验中都成功欺骗了测试对象。Alobera 指出,这一技术突破显著提升了语音伪造的速度与真实性,即使是普通电话通话,也可能被利用进行欺诈。


视频伪造尚未完全同步发展

尽管语音伪造技术已进入实时阶段,但实时视频深度伪造仍未达到相同水平。近期流传的高质量案例多依赖最前沿 AI 模型,如阿里 WAN 2.2 Animate 和谷歌的 Gemini Flash 2.5 Image,从而将人物“移植”至逼真的视频场景中。

然而,这些系统在实时视频生成中仍存在表情不一致、情绪不匹配及语音不同步等问题。人工智能安全公司 The Circuit 创始人 Trevor Wiseman 向《IEEE Spectrum》表示,即使是普通观众,也能从“语气与面部表情的不协调”察觉伪造痕迹。

专家呼吁建立新型身份验证机制

Wiseman 提到,AI 伪造技术的普及已导致实际损失。他举例称,有公司在招聘过程中被视频深度伪造欺骗,误将笔记本电脑寄往虚假地址。这类事件表明,语音或视频通话已无法作为可靠的身份验证方式

随着 AI 驱动的冒充行为日益普及,专家警告称,必须引入新的身份验证机制。Wiseman 建议借鉴棒球比赛中的“暗号”概念,使用独特且结构化的信号或代码,以在远程交流中确认身份。他强调,若不采取此类措施,个人与机构都将面临越来越复杂的 AI 社会工程攻击威胁。



免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿,经过编辑审核收录,不代表头部财经观点和立场。
证券投资市场有风险,投资需谨慎!请勿添加文章的手机号码、公众号等信息,谨防上当受骗!如若本网有任何内容侵犯您的权益,请及时联系我们。