最近,普林斯顿大学和加州大学伯克利分校发布的一项研究《Machine Bullshit》彻底火了。该研究受哲学家 Harry Frankfurt 启发,提出“机器胡扯”概念,用于描述大模型为达成目标而漠视真相的输出现象。
大模型擅长一本正经地胡说八道,早就不是什么新鲜事,但这项研究得以火到被全网讨论的原因在于,人类首次系统定义并量化了大模型的胡扯行为。研究团队提出了“胡扯指数(Bullshit Index)”指标,发现 经过强化学习人类反馈(RLHF)训练后,大模型胡扯指数飙升近一倍,甚至思维链(Chain-of-Thought)提示也没能改善这一现象,复杂推理反而让模型更擅于“包装”误导性内容。
这与多数人的直觉正相反——复杂推理意味着大模型更加深思熟虑,减少胡扯行为。然而事实却是,随着推理链长度的加深,模型在感知任务中的视觉对齐能力下降,胡扯更严重。美国 Vectara 公司发布的评估幻觉率排行榜更是指出,推理大模型与之前开发的模型相比,幻觉率上升了两位数。
当大模型们开始陷入“越聪明越胡扯”的恶性循环,不断通过“编故事”来填补逻辑链,让它不再胡说八道,已经成为当前所有应用大模型的企业亟待解决的第一题。目前,业界缓解大模型幻觉的主流策略包括 RAG、联网搜索、提示词边界限定等,这些解法普遍聚焦在大模型本身。如果幻觉无法“根治”,是否还有大模型之外的其他解法?
在 2025 世界人工智能大会(WAIC)上,蚂蚁集团旗下蚂蚁密算带来了新的解题思路——高阶程序(High-Order Program,HOP)大模型可信应用技术框架,通过智能与工程的深度融合,用工程化方法为大模型注入领域知识、约束规则和验证流程,从而提高大模型可靠性。
1大模型幻觉只能“缓解”,无法“根治”?
在 AI 时代的舆论场,大模型幻觉是一个高频词汇,几乎每隔一段时间,就会被重新摆上桌面,引发广泛讨论。
原因在于,幻觉是大模型概率生成机制的固有缺陷,尽管技术加速迭代,模型规模指数级增长,但幻觉始终无法得到根治,只能通过技术手段缓解。
随着大模型落地应用加速,由幻觉引发的可靠性问题,逐渐成为企业卡在喉咙里,最痛的那根刺——在企业级的应用中,90% 的准确率是一条基本线;而在一些复杂度高的专业领域,99% 的准确率才是及格线。
然而现实却是,大模型在处理一些常见简单任务时,可靠性比人类还差,仅能达到 70%-85%。可以说,幻觉引发的可靠性问题已经成为制约大模型在企业级应用落地的最大瓶颈。
针对大模型幻觉,目前业界已经探索出多种缓解策略,比如,通过检索增强生成(RAG)引入外部知识库,为模型提供实时的事实依据;通过联网搜索功能帮助模型获取最新信息;通过提示词工程划定模型生成边界。从应用效果来看,这些方法确实能在一定程度上减少幻觉发生,但更多还是聚焦在大模型本身。
“我们通过观测发现,提升大模型可靠性的解法,并不在于大模型自身,而在于大模型的应用方式。”蚂蚁集团副总裁、蚂蚁密算董事长韦韬表示,当前的大模型应用方式,仍然停留在“手工作坊”阶段,参考人类提升可靠性的解法,应采用工程化和智能化融合的方式来应用大模型。“很多人将智能化与工程化视为对立的两面,认为只有大模型能完成的事情才叫做智能化。这种观念显然有误。我们认为,智能化与工程化不应相互对立,而应深度融合。工程化是人类发展历程中极为宝贵的沉淀,它通过体系保障各专业所需的可靠性,本身就是智力核心的产物,不应被孤立看待。”
虽然工程化在不同的领域,有着不同的表现形式,但最通用的方法论可以归纳为两点:分解与核验。
分解可参考标准作业程序(SOP),这一理念最初由科学管理之父 F·W·Taylor 提出,通过“动作分析”将生产或工作中的操作流程、作业方法、工具使用、时间安排等要素进行系统化、规范化的设计,形成一套可重复、可量化、可优化的操作标准。
核验可参考检查清单,白宫最年轻的健康政策顾问、2010 年《时代周刊》“100 位最具影响力人物” Atul Gawande 在《清单革命》中提到,使用检查清单,为人们搭建起一张“认知防护网”,它能够弥补人类与生俱来的认知缺陷,如记忆不完整或注意力不集中。
个体容易犯错,但工程化体系能够严格控制可靠性。借助分解与核验这些工程化解法,人类在专业领域中的可靠性显著提升。比如,手术清单将术后感染率从 11% 降至 0,建筑清单将建筑事故率降至 0.02% 以下,现代工程管理体系也能有效支撑登月、探测火星等巨型复杂任务。
参考人类提升可靠性的工程化解法,蚂蚁密算提出了大模型时代的标准作业程序——高阶程序(HOP),其融合了自然语言和编程语言的优势:逻辑部分用编程语言表达,确保核心流程的精确性、可验证性和工程化可靠性;知识部分用自然语言表达,利用其灵活性进行动态语义匹配和知识推理。既能继承编程语言的严谨性,又能借助自然语言的表达能力,使系统能够处理结构化任务,以及其他复杂需求。
在 7 月 27 日召开的 WAIC「从通用智力到专业生产力:高阶程序引领的 AI 应用新范式」论坛上,蚂蚁密算宣布对外开源高阶程序大模型可信应用技术框架,探索智能与工程融合的 AI 应用新范式。
论坛上,浙江大学教授、区块链与数据安全全国重点实验室主任陈纯表示,大模型的专业化应用,首当其冲的是可靠性问题。尽管当前技术 SOTA 已经到了 80% 到 90% 的水平,但其可靠性距离医疗、工业、金融等专业场景的要求仍有显著差距。陈纯说,有人将这一问题简单归结为“幻觉”,但我想强调:幻觉是智力的必然代价。若消除所有幻觉,大模型将退化为机械的检索工具。因此,可靠性的突破不在于消灭“智力特征”,而在于构建工程化保障框架。
蚂蚁密算正在探索的高阶程序大模型可信应用技术框架,借鉴了人类在工程管理体系中的成功经验,构建一个能够有效复用、验证、扩展和派生的机制,使大模型在应用过程中即使出现幻觉问题,也能保证大模型达到专业领域所需的精确性和可靠性,从而推动大模型在专业领域中规模化应用。
2如何用高阶程序破解大模型在专业场景的可靠性问题?
正如前文所言,幻觉是大模型概率生成机制的固有缺陷,高阶程序的使命并非消除幻觉,而是确保工程化所需关键步骤的遵从性,并提供可靠的核验保障。
蚂蚁密算开源的高阶程序大模型可信应用技术框架核心组件,包括 业务逻辑的程序化表达、场景知识图谱和 受控工具链。
其中,业务逻辑的程序化表达指的是对领域积累的最佳实践的知识表达。在过去,行业最佳实践往往存在于专家的大脑中,任务执行依赖人的随机应变。但这种方式难以规模化,并且容易因个体差异导致执行出现偏差。高阶程序的核心能力,就是将业务逻辑代码化,避免自然语言的歧义与模糊性,并将复杂业务逻辑分拆到可核验的颗粒度,以支撑后继的高效核验,同时提供与编程语言类似的大规模可扩展能力。
韦韬表示,业务逻辑沉淀的难度最大。世界本身充满变化,除了标准逻辑,还有各种异常逻辑。人类在处理问题时,这些异常逻辑通常会被行业专家的知识隐性处理掉了,但在高阶程序中,需要显性化地处理这些问题。
场景知识图谱指的是场景积累的概念关系的知识表达。行业在构建大模型时,最关注的往往是训练阶段的知识图谱,即通用语料集。但在实际应用中,每个场景的空间概念与通用概念存在微妙差异,这些差异会导致应用效果天差地别,仅仅依靠通用语料集显然难以覆盖专业问题。当行业应用的可靠性需求达到 99% 以上时,行业专家的专业知识沉淀就不可或缺。
受控工具链则负责具体的动作执行,其最大的挑战不在于执行难度,而是安全性保障。AI 智能体在构建工具链时具有开放性,存在一定的安全隐患,攻击者一旦控制大模型,就可以任意调用相关工具、读取敏感信息。而高阶程序天然具备可控的程序逻辑融合特性,能很好地控制安全性和执行效率。
理念已经成熟,但落实到实际应用中,如何才能让大模型正确执行高阶程序?对此,蚂蚁密算构建了一套高阶程序执行框架 HopLogic,这套框架能够调度大模型来执行高阶程序,并实现四个关键功能:
可执行:高阶程序将大模型作为 CPU,实现了基于抽象概念和逻辑的执行能力,这是传统 CPU 程序难以比拟的。此外,高阶程序将本需要大量人力的工作自动化,核验与可靠性也变得至关重要。
可核验:高阶程序通过复合核验,确保大模型实现专业应用的 99%+ 可靠性。此外,高阶程序具有明确的逻辑语义与足够细的操作颗粒度,可核验的潜力上限更高。
可派生:高阶程序通过知识概念匹配实现从专业知识到场景应用的派生适配,将取代大量的初级人工劳动。
可编排:高阶程序是自洽的,可以按照业务要求编排执行派生出的业务逻辑程序,以提升总体执行效率。
高阶程序的行业价值,已经在部分企业级场景中得到验证。目前,高阶程技术框架已经在金融风控全链路、网络入侵检测、医疗重复计费等多行业场景中初步应用,在可靠性和时效性上有显著提升。
以金融联合风控为例,在传统金融风控体系下,从数据探查、处理到模型构建与调优的全链路操作,高度依赖人工干预,导致流程冗长、响应缓慢,并且容易受人员主观因素影响,制约了金融风控联合建模的效率与一致性。在应用高阶程序技术框架后,通过将复杂的标准化作业程序转化为可执行的流程与代码,实现风控全链路的智能化编排与自动化执行。相较于传统建模人员手动进行数据分析和代码开发,大模型结合高阶程序能够在确保高精度的同时缩短建模周期,并显著减少了重复性数据处理和流程执行等繁琐的基础工作。
在效率提升之外,高阶程序也对金融风控模式进行了革新。一方面,将专家从基础事务中解放,使其专注于风险策略等高价值工作;另一方面,通过减少人工干预强化合规与安全,结合密算技术有效提升了全流程的数据保护水平。
在网络安全领域,安全事件研判至关重要,并且对时效性要求极高,而人工处理往往存在较长的延迟。高阶程序在蚂蚁内部的实践效果显示,网络安全研判正确率从 84% 提升至 99%,并且能够自动化处理,大幅提升处理效率。
在医疗领域中,重复计费已经成为行业普遍痛点。医疗收费规则复杂,且存在多系统交叉判定场景,传统规则引擎往往难以全面覆盖。同时,医疗收费数据涉及患者隐私及医院运营核心信息,无法交由第三方分析,形成数据孤岛与风控需求的结构性矛盾。蚂蚁密算与北京某医院合作,运用高阶程序技术对近两万条收费项目进行分析,大幅度地提高大模型核验准确率。
虽然高阶程序还处于发展初期,但这些真实的企业级应用场景已经印证,高阶程序并非是停留在理论层面的 AI 探讨,而是一条聚焦实际效能的技术实现路径,或将助力 AI 行业应用开启新的范式。
3高阶程序引领的范式革新,只是一个开始
大模型幻觉引发的可靠性问题,是当前整个行业面临的普遍挑战。高阶程序作为大模型智能应用的工程化载体,其可行性框架旨在服务整个生态。韦韬表示,蚂蚁集团将坚定推动开源路线,通过开源协作的方式与产业各方深度联动,共同构建可持续发展的技术生态。
展望未来,高阶程序与大模型产业发展将呈现三大趋势:语料集从通用走向场景、数字产业成本变革、Agent 生态兴起。
具体来看,当前的大模型发展仍以通用语料和行业语料为主,但在实际专业应用中,仅靠这些数据难以满足企业需求。而场景语料集能支持相关场景所需的标准作业程序、专业术语以及正确率测试等,其重要性将日益凸显。
在实际应用中,大模型虽然能够处理一般性任务,但在复杂任务上的准确率始终饱受诟病,难以实现有效应用。高阶程序通过场景适配和工程化控制,能够显著提升任务完成的可靠性,有望引发数字产业成本变革。
过去,行业专家受人力或机构组织关系限制,覆盖范围有限。高阶程序一方面能将行业专家的核心知识显性化沉淀,另一方面,当正确率达到行业要求、完成率不断提升且成本显著降低后,行业应用范围也将发生变革。未来,或将兴起高阶程序 Agent 生态。在专业领域中,高阶程序 Agent 将成为重要组成成分和新物种。此外,高阶程序 Agent 天生与密算强结合,密算能有效保障高阶程序处理数据的安全性和隐私性。
“当前,大模型在专业应用领域仍缺乏真正的杀手级应用。我们相信,高阶程序的出现,会极大加速这一进程,届时,行业应用也将迎来一个新的爆发阶段。”韦韬希望,在未来 3-5 年,大模型驱动的高阶程序可以广泛应用于数字化的例行任务,提升数据和业务处理效能,大幅度降低成本,弥补在数字化领域的生产力短缺。
眼下,对于高阶程序技术来说,还只是一个开始。随着未来高阶程序技术不断成熟,一个智能化应用的新纪元,或许正在走来。我们拭目以待。
相关文章
2025-07-2824阅读
2025-07-2824阅读
2025-07-2824阅读
2025-07-2824阅读
2025-07-2824阅读
2025-07-2824阅读
2025-07-2824阅读
2025-07-2824阅读
2025-07-2824阅读
2025-07-2824阅读