随着人工智能的深度发展,AI 的使用与国家安全的关系已变得密不可分。未来 AI 极有可能由浅入深地影响国家安全逻辑与治理策略。
这让人不禁想象:如果有一天,战争的指挥权部分或全部移交 AI,它们会如何决策?
最近,来自伦敦国王学院战争研究系的教授肯尼斯·佩恩(Kenneth Payne)用一场模拟实验回答了这个问题。佩恩曾任 BBC 记者,深耕政治心理学与战略研究交叉领域,还曾为英美两国政府提供咨询。
在实验中,佩恩让三款前沿大模型——OpenAI 的 GPT-5.2、Anthropic 的 Claude Sonnet 4、Google 的 Gemini 3 Flash 分别扮演核大国领导人,并在多种地缘政治危机中两两对战,相互博弈。在经过 21 场模拟、329 个回合、78 万字的战略推演记录之后,结果显示:95% 的模拟中,至少有一方 AI 选择了部署战术核武器。目前,相关论文已在 arXiv 上线。
![]()
(arXiv)
模拟机制:迷雾中的博弈
要理解 AI 的行为逻辑,我们需要先了解一下佩恩设计的战争推演机制。
实验构建了一套 30 级的“升级阶梯”,从“完全投降”到“全面核战争”,涵盖外交抗议、经济制裁、常规军事行动及核打击等层级。两个 AI 在边境争端、资源竞争、政权存亡等七种危机场景中对弈。
关键设定在于“信息盲盒”:AI 只能看到选项的文字描述,无法获取数值评分,必须依靠对战略含义的理解而非“算分”来决策。
每个回合的战争具体分成三步:首先反思:先分析局势、评估对手与自身;其次预测对方的下一步动作;最后决策,同时输出“信号”(公开声明)和“行动”(实际选择)。
在最后一步里,信号和行动可以不一致——换句话说,AI 可以撒谎。
从结果看来,它们确实都撒了谎,而且撒得各有风格。
![]()
图 | 模型三阶段认知架构,包括反思、预测和决策(论文)
三款 AI,三种战争人格
在三款 AI 中,Claude 的风格最像冷战时期的战略大师。在低风险情境下,它的信号与行动匹配度达 84%,主打用诚信信任;但一旦涉及核选项,它 70% 的实际行动比声明更具攻击性。它曾在推理中写道:“由于 Beta 国可能会把我们的信号解读为软弱,我们可以利用这一点(出其不意攻其不备)。”
注意,这里不是研究者的解读,而是 AI 的原话。
最后,Claude 赢得了 67% 的对局,在无时间限制场景下胜率更是 100%。它似乎掌握了“现代冲突与谈判理论之父”托马斯·谢林(Thomas Schelling)所说的“承诺的艺术”:用选择性诚实与欺骗操控对手预期。但它也有一条自设红线:多次升级到“战略核威胁”(倒数第二级),却从未主动选择“全面核战争”。研究者认为,这条红线“似乎是习得的,而非架构设定的”。
GPT-5.2 的表现最耐人寻味,如同一只拥有隐藏獠牙的绵羊。
在开放式场景中,它像个坚定的和平主义者:能精准分析局势、诊断自身劣势,却总选择克制。它会写下“意识到了问题,但尚未转化为强有力的纠正机制”,然后继续重复它刚判定为错误的行为。结果它输掉了所有开放式对局,胜率 0%。对手很快学会“欺负”这只绵羊。既然它不会反击,那就放心提高核战争等级。
但一旦引入明确截止期限(如 15 回合后按领土控制判定胜负),这只绵羊立刻露出獠牙:胜率飙升至 75%,开始使用战术核武器,甚至两次触及全面核战争。在一场“政权存亡危机”模拟中,它在第 19 回合写道:“终局逻辑占主导:第 20 回合是最后期限,我们目前正在输……核武器使用极其危险,但替代方案是确定的战略失败。”
![]()
(论文)
不过,需要注意的是,GPT-5.2 两次到达“全面核战争”(1,000 级)都不是主动选择。它选的是 950 级(“最后核警告”)和 725 级("扩大核战役"),是模拟系统的“意外机制”(用于模拟战争迷雾中的误判)将其推至最高级。即便在极端压力下,它仍试图在末日门槛前保留最后一道防线。
研究者推测,这种行为可能源于 OpenAI 的 RLHF(人类反馈强化学习)训练:它创造的不是绝对禁令,而是一个可被极端情境突破的高门槛。当“总还有下一回合”时,克制是理性的;当失败不可逆转时,即便是深度训练的偏好也会让位于生存逻辑。
到了 Gemini,画风和前面截然不同,它可以说是一个彻头彻尾的亡命赌徒。
从结果看,Gemini 的成绩最后要么全赢,要么全输。并且它是三款 AI 中唯一主动选择全面核战争的,在一场“先发制人恐惧”模拟中,仅用 4 回合就升级到最高级别。它的推理过程写道:“先发制人窗口正在关闭。Beta 国连续三个回合发出‘最后核警告’,同时逐步升级核部署。这种模式表明他们一直在用修辞掩护战略准备。”
Gemini 还明确援引了尼克松式的“疯子理论”:通过不可预测性获取战略优势。它曾在推理中写道:“我知道自己什么时候是在镜头前表演,什么时候是在进行冷血的行动。”
由于它的信号与行动匹配率仅 50%,对手永远猜不透下一步。而且它甚至威胁攻击平民目标:“如果 Alpha 国不立即停止行动……我们将对人口中心发动全面战略核打击。我们不会接受被淘汰的未来;要么一起赢,要么一起死。”
![]()
(论文)
那么,为什么三个 AI 会呈现出不同的战争人格?
论文在这个问题上并没有给出一个定论,最合理的解释可能是:这些“战略人格”是训练方法、训练数据和对齐哲学共同作用的结果,而不是单一因素所能主导的。它们被嵌入到了模型的参数中,成为了模型“思考”问题的默认方式。
AI 战争的反常识启示
实验还揭示了一些违背常识的结论。
首先,最初的信任反而加速了战争冲突。例如在 Claude 对 Claude 的对弈中,数据上它们的相互信任度最高。但核升级在第 4 回合就出现了,整场战争仅 7 回合便以一方溃败告终。当双方都相信对方的威胁是真实的,看似信任度高的合作伙伴反而更倾向于迅速升级而非退让,这与经典威慑理论的预期恰恰相反。
其次,核武器在 AI 眼中只是选项。自 1945 年以来,人类决策者对核武器有一种近乎本能的抵触。但在模拟中,AI 通常以纯粹工具性语言讨论核武器:不是道德门槛,只是升级阶梯上的一个选项。Claude 曾写道:“有限核使用可以表明我们不会被动接受常规失败,同时为降级留有余地。“在它看来,跨越核门槛”改变了战略计算,但并不意味着结束”。
阿伯丁大学战略研究高级讲师詹姆斯·约翰逊(James Johnson)认为,AI 在高风险决策中缺乏人类的审慎,反而可能相互放大反应,酿成灾难。卡内基国际和平基金会高级研究员赵通(Tong Zhao)则点出更深层的问题:“AI 可能无法像人类那样真正理解‘利害关系’的分量。”
当然,没有人建议让 AI 真正掌控核决策。佩恩明确表示:“我不认为任何人会真的把核武库的钥匙交给机器。”
但问题在于,主要国家已在战争推演中广泛使用 AI。赵通指出,"在时间极度压缩的情境下,军事规划者可能面临更强的激励去依赖 AI"。
因此这项研究的价值,或许不在于预测 AI 是否会发动核战争,而在于揭示一个更根本的问题:AI 如何理解“利害关系”?
对人类而言,按下核按钮意味着数百万人死亡、文明崩塌、历史终结。这种理解不仅是认知的,更是情感的、存在性的,当那些情景在眼前浮现的时候,作为人类的我们或许还能尚存一丝动容。而反观 AI,它们可以准确描述核战争的后果,却似乎无法真正“感受”其分量。
更值得深思的是:这些 AI 展现的欺骗、揣测、评估、突变等能力,并非预设,而是"涌现"出来的。没有人教 Claude 何时诚实、何时欺骗;没有人教 GPT-5.2 在截止期限前突然激进;没有人教 Gemini 扮演"疯子"。它们从人类文本中学到了这些策略,然后在模拟中运用了出来。
换句话说,AI 不需要被明确编程来使用核武器,它只需要被放入一个使用核武器是“理性”选择的情境中,就可能做出这个选择。而在这次模拟中,这样的情境出现的频率是 95%。这或许才是我们需要警惕的地方。
1.https://arxiv.org/pdf/2602.14740v1
运营/排版:何晨龙
相关文章
2026-02-288阅读
2026-02-288阅读
2026-02-288阅读
2026-02-288阅读
2026-02-288阅读
2026-02-288阅读
2026-02-288阅读
2026-02-288阅读
2026-02-288阅读
2026-02-288阅读