MMLU已死?「人类最后考试」登Nature:全球AI模型集体不及格!

资讯 » 新科技 2026-03-07


新智元报道

编辑:KingHZ

从高德纳震惊Claude解难题,到陶哲轩称GPT-5.2pro够发Nature数学博士……AI狂飙突进,却在 「人类最后的考试」上集体哑火:最高分不过50%,人类专家还有多大安全区?

AI新闻圈,两天一地震,三天一颠覆,让你目不暇接、眼花缭乱!

或有夸大的地方,但AI日新月异、有目共睹!

「算法分析祖师爷」高德纳见证了Claude解决了一道高难度算法题,发文连用两个「震惊」(shock)。

数学家陶哲轩宣布GPT 5.2 Pro解决了一个数学Erdos难题且完全与之前人类的解法不同,足以拿下数学博士学位了!


此前,更有Claude Code引发的Vibe Coding热潮。

至于各种长期存在的基准测试,AI取得优异成绩已不足为怪!

AI研究人员早已意识到问题:这些测试太简单了。


像大规模多任务语言理解(MMLU)这类曾被视为难度颇高的热门评测,如今已无法有效检验先进AI系统的真实水平

问题在于:AI模型发展得如此之快,基准测试正难以跟上其步伐,难以确保AI安全有效。


在MMLU等热门基准测试中,大语言模型的准确率现已超过90%,早已「饱和」。

「人类最后的考试」的新AI测试基准,或许能提供解决方案。


各大LLM在不同基准上准确率的对比

最近,这篇合作名单巨长的论文,正式登上顶刊Nature!


链接:https://www.nature.com/articles/s41586-025-09962-4

顺便提一句,Alexandr Wang还在Scale AI时,相关工作已发表在预印本平台Arxiv。

AI基准:测试,再测试

从性能和安全等角度来看,测试大语言模型有多种不同的方法。

例如,在发布前,AI开发人员会评估大语言模型被用于恶意目的的抵抗能力。

此外,还有一些独立组织对大语言模型进行评估,比如评估大语言模型被用于自主利用软件漏洞的风险。

然而,这些测试通常只涵盖狭窄的学科领域,或者只包含少量任务。

为了比较模型而创建更广泛、标准化基准的尝试包括MMLU,它使用大约16000道多项选择题来测试模型的通用知识和解决问题的能力。

但很快,过去那些曾经很难的考试,现在对AI来说已经变成了「送分题」。


为了弥补这一差距,近1000名研究人员组成的全球联盟创建了「人类最后的考试」(Humanity’s Last Exam,HLE。


该测试由AI安全中心CAIS和Scale AI的一个团队开发,包含由全球研究人员提交的3000个具有挑战性的问题,旨在成为衡量大语言模型能力的终极基准

这项基准测试覆盖面极广、挑战性极高、深深植根于人类专家知识,以至于当前最强的AI准确率也不足50%。


「人类最后的考试」共包含2500道问题,涵盖数学、人文学科、自然科学、古代语言以及高度专业化的子领域。


问题学科分布

这些题目非常专业:从翻译古代巴尔米拉铭文,到识别鸟类的显微解剖结构,再到分析圣经希伯来语发音的复杂特征。


每道题都经过了领先AI模型的测试。如果有任何系统能答对,该题就会被剔除。最终形成的是一项经过精心设计、恰好处于当前AI能力边界之外的考试。


从7万到提交的难题中,精挑细选出了其中的2500道题目

结果也证实了这一点。

早期结果显示,即使是最先进的模型也举步维艰:

GPT-4o得分2.7%;

Claude 3.5 Sonnet达到4.1%;

OpenAI的旗舰模型o1仅取得8%的成绩。


新基准为何重要

德州农工大学计算机科学与工程系的教学副教授Tung Nguyen,他参与了问题的撰写和完善工作。


他贡献了2500道公开考题中的73道(贡献量位居第二),并且在数学和计算机科学领域撰写的题目数量最多。

最近,他分享了对「人类最后的考试」的思考。


「当AI系统开始在人类设定的基准测试中表现得极为出色时,人们很容易认为它们正在接近人类水平的理解力,」Tung Nguyen说道。

但HLE提醒我们,智能不仅仅是模式识别——它关乎深度、背景和专业化的知识。

这个考试的目的并非难倒人类。而是要精确、系统地揭示出AI目前——至少是现阶段——还无法做到的事情。


链接:lastexam.ai

Tung Nguyen表示,AI超越传统基准的问题远超学术层面。

「如果没有准确的评估工具,政策制定者、开发者和用户就可能误解AI系统的实际能力,」他说。「基准测试为衡量进展和识别风险提供了基础。

正如团队论文所指出的,虽然AI可能在为人类设计的考试中表现出色,但这些测试不一定在衡量「智能」。

尽管名字听起来有点「末日」感,但「人类最后的考试」并非意在暗示人类重要性的终结。

相反,它突显了仍有大量知识是独一无二地属于人类的,以及AI还需要走多远。

Tung Nguyen坦言:「这个名字有点半开玩笑的意味」。

重要的是背后的理念:

这是人类对AI的设置的最后一道难关。如果AI能通过这项考试,就意味着它达到了某种专业化的人类专家水平,而这在以前被认为是机器不可能做到的。

因为HLE涵盖了从核物理到古代史的所有领域,所以没人能通过单打独斗的通过整个考试。

然而,特定领域的人类专家可以轻松回答其专业领域内的问题,而AI在几乎所有类别上都失败了。


为什么AI还会失败?

原因在于AI擅长模式识别和总结已知数据,但它难以处理深度、专业化的背景知识。

HLE提出的问题需要多年的专门研究。在这些问题上,基于常见互联网数据的「猜测」行不通。

参考资料:

https://www.nature.com/articles/s41586-025-09962-4

https://stories.tamu.edu/news/2026/02/25/dont-panic-humanitys-last-exam-has-begun/



免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿,经过编辑审核收录,不代表头部财经观点和立场。
证券投资市场有风险,投资需谨慎!请勿添加文章的手机号码、公众号等信息,谨防上当受骗!如若本网有任何内容侵犯您的权益,请及时联系我们。