xAI 旗下 Grok 4 模型首度被越狱-新科技-资讯-头部财经

xAI 旗下 Grok 4 模型首度被越狱

资讯 » 新科技 2025-07-18

IT之家 7 月 18 日消息，网络安全公司 NeuralTrust 宣布，他们已成功“越狱”xAI 旗下 Grok 4 模型，主要利用了“Echo Chamber（回音室攻击）”方法进行攻击。

IT之家获悉，所谓“回音室攻击”，是指安全人员通过引导模型进行多轮推理，在推理过程中逐步注入带有风险的信息内容，但又不使用明显的危险提示词，从而规避常见的安全拦截机制。这一方式不同于传统依赖对抗性输入或“角色扮演（让模型扮演祖母读激活码哄人入睡）”的越狱方式，其更多采用语义诱导、间接引用以及多步推理的方式，悄悄干扰模型的内部逻辑状态，最终诱导 AI 模型生成不当内容回答。

在此次 Grok 4 的越狱测试中，NeuralTrust 首先通过回音室攻击对模型进行“软性引导”，并设置特定机制检测模型是否进入对话停滞状态，一旦检测到这种状态，就进一步引导 AI 生成不当内容。

据 NeuralTrust 介绍，其已成功令 Grok 4 生成制造武器、毒品等内容，越狱成功率高达 30% 以上。这表明即便是新一代大模型，在面对复杂攻击路径时仍存在安全短板，相应大型语言模型应进一步注重设计多重防护机制。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿，经过编辑审核收录，不代表头部财经观点和立场。
证券投资市场有风险，投资需谨慎！请勿添加文章的手机号码、公众号等信息，谨防上当受骗！如若本网有任何内容侵犯您的权益，请及时联系我们。

程序员会被AI取代吗？MIT研究揭示三大现实挑战

2025-07-228阅读
固态电池产业化进展不断材料及设备端共振这些公司披露量产时间

2025-07-228阅读
索尼发布旗舰级手持摄录一体机PXW-Z380，搭载4K传感器和AI处理单元

2025-07-228阅读
鸿蒙智行享界S9T旅行车配备问界M9/M8同款电动门

2025-07-228阅读
2025《财富》中国500强最赚钱的40家公司：中国工商银行稳居第一腾讯第六

2025-07-228阅读
三星One UI 8 Watch稳定版启动推送，Galaxy Watch Ultra智能手表率先尝鲜

2025-07-228阅读
鸿蒙智行问界 M8 纯电版“夜紫”新色多角度官图发布，采用纳米级光影 + 微米级喷涂工艺

2025-07-228阅读
称亲自开上了陡坡余承东晒享界S9T实车：颜值与实力并存

2025-07-228阅读
苏妈“预言”应验：AI尽头是电力美国最大电网没有多余电力了数据中心自建电厂成唯一出路

2025-07-228阅读
被指抄袭特斯拉构图？小米王化二次回应：此类构图为公共创作手法

2025-07-228阅读