![]()
新智元报道
编辑:KingHZ
从高德纳震惊Claude解难题,到陶哲轩称GPT-5.2pro够发Nature数学博士……AI狂飙突进,却在 「人类最后的考试」上集体哑火:最高分不过50%,人类专家还有多大安全区?
AI新闻圈,两天一地震,三天一颠覆,让你目不暇接、眼花缭乱!
或有夸大的地方,但AI日新月异、有目共睹!
「算法分析祖师爷」高德纳见证了Claude解决了一道高难度算法题,发文连用两个「震惊」(shock)。
数学家陶哲轩宣布GPT 5.2 Pro解决了一个数学Erdos难题且完全与之前人类的解法不同,足以拿下数学博士学位了!
![]()
此前,更有Claude Code引发的Vibe Coding热潮。
至于各种长期存在的基准测试,AI取得优异成绩已不足为怪!
AI研究人员早已意识到问题:这些测试太简单了。
![]()
像大规模多任务语言理解(MMLU)这类曾被视为难度颇高的热门评测,如今已无法有效检验先进AI系统的真实水平
问题在于:AI模型发展得如此之快,基准测试正难以跟上其步伐,难以确保AI安全有效。
![]()
在MMLU等热门基准测试中,大语言模型的准确率现已超过90%,早已「饱和」。
「人类最后的考试」的新AI测试基准,或许能提供解决方案。
![]()
各大LLM在不同基准上准确率的对比
最近,这篇合作名单巨长的论文,正式登上顶刊Nature!
![]()
链接:https://www.nature.com/articles/s41586-025-09962-4
顺便提一句,Alexandr Wang还在Scale AI时,相关工作已发表在预印本平台Arxiv。
AI基准:测试,再测试
从性能和安全等角度来看,测试大语言模型有多种不同的方法。
例如,在发布前,AI开发人员会评估大语言模型被用于恶意目的的抵抗能力。
此外,还有一些独立组织对大语言模型进行评估,比如评估大语言模型被用于自主利用软件漏洞的风险。
然而,这些测试通常只涵盖狭窄的学科领域,或者只包含少量任务。
为了比较模型而创建更广泛、标准化基准的尝试包括MMLU,它使用大约16000道多项选择题来测试模型的通用知识和解决问题的能力。
但很快,过去那些曾经很难的考试,现在对AI来说已经变成了「送分题」。
![]()
为了弥补这一差距,近1000名研究人员组成的全球联盟创建了「人类最后的考试」(Humanity’s Last Exam,HLE。
![]()
该测试由AI安全中心CAIS和Scale AI的一个团队开发,包含由全球研究人员提交的3000个具有挑战性的问题,旨在成为衡量大语言模型能力的终极基准
这项基准测试覆盖面极广、挑战性极高、深深植根于人类专家知识,以至于当前最强的AI准确率也不足50%。
![]()
「人类最后的考试」共包含2500道问题,涵盖数学、人文学科、自然科学、古代语言以及高度专业化的子领域。
![]()
问题学科分布
这些题目非常专业:从翻译古代巴尔米拉铭文,到识别鸟类的显微解剖结构,再到分析圣经希伯来语发音的复杂特征。
![]()
每道题都经过了领先AI模型的测试。如果有任何系统能答对,该题就会被剔除。最终形成的是一项经过精心设计、恰好处于当前AI能力边界之外的考试。
![]()
从7万到提交的难题中,精挑细选出了其中的2500道题目
结果也证实了这一点。
早期结果显示,即使是最先进的模型也举步维艰:
GPT-4o得分2.7%;
Claude 3.5 Sonnet达到4.1%;
OpenAI的旗舰模型o1仅取得8%的成绩。
![]()
新基准为何重要
德州农工大学计算机科学与工程系的教学副教授Tung Nguyen,他参与了问题的撰写和完善工作。
![]()
他贡献了2500道公开考题中的73道(贡献量位居第二),并且在数学和计算机科学领域撰写的题目数量最多。
最近,他分享了对「人类最后的考试」的思考。
![]()
「当AI系统开始在人类设定的基准测试中表现得极为出色时,人们很容易认为它们正在接近人类水平的理解力,」Tung Nguyen说道。
但HLE提醒我们,智能不仅仅是模式识别——它关乎深度、背景和专业化的知识。
这个考试的目的并非难倒人类。而是要精确、系统地揭示出AI目前——至少是现阶段——还无法做到的事情。
![]()
链接:lastexam.ai
Tung Nguyen表示,AI超越传统基准的问题远超学术层面。
「如果没有准确的评估工具,政策制定者、开发者和用户就可能误解AI系统的实际能力,」他说。「基准测试为衡量进展和识别风险提供了基础。」
正如团队论文所指出的,虽然AI可能在为人类设计的考试中表现出色,但这些测试不一定在衡量「智能」。
尽管名字听起来有点「末日」感,但「人类最后的考试」并非意在暗示人类重要性的终结。
相反,它突显了仍有大量知识是独一无二地属于人类的,以及AI还需要走多远。
Tung Nguyen坦言:「这个名字有点半开玩笑的意味」。
重要的是背后的理念:
这是人类对AI的设置的最后一道难关。如果AI能通过这项考试,就意味着它达到了某种专业化的人类专家水平,而这在以前被认为是机器不可能做到的。
因为HLE涵盖了从核物理到古代史的所有领域,所以没人能通过单打独斗的通过整个考试。
然而,特定领域的人类专家可以轻松回答其专业领域内的问题,而AI在几乎所有类别上都失败了。
![]()
为什么AI还会失败?
原因在于AI擅长模式识别和总结已知数据,但它难以处理深度、专业化的背景知识。
HLE提出的问题需要多年的专门研究。在这些问题上,基于常见互联网数据的「猜测」行不通。
参考资料:
https://www.nature.com/articles/s41586-025-09962-4
https://stories.tamu.edu/news/2026/02/25/dont-panic-humanitys-last-exam-has-begun/
相关文章
2026-03-074阅读
2026-03-074阅读
2026-03-074阅读
2026-03-074阅读
2026-03-074阅读
2026-03-074阅读
2026-03-074阅读
2026-03-074阅读
2026-03-074阅读
2026-03-074阅读