外国高三学生创建AI评测网站：让AI在《我的世界》里“一决高下”-新科技-资讯-头部财经

外国高三学生创建AI评测网站：让AI在《我的世界》里“一决高下”

资讯 » 新科技 2025-03-22

3 月 22 日消息，由于传统 AI 基准测试方法难以全面评估模型能力，AI 开发者正尝试更具创意的测试方式，其中一种测试手段，则是微软沙盒建造游戏《我的世界》。

据外媒 TechCrunch 报道，名为阿迪・辛格（Adi Singh）的高三学生创建了专门为 AI 评测而开发的网站 Minecraft Benchmark（简称 MC-Bench），让 AI 模型在《我的世界》中同台竞技，基于相同的提示生成建筑作品。用户可以为自己认为更出色的作品投票，而投票结束后才会显示具体是哪款 AI 生成了哪些作品。

其认为选择《我的世界》的意义并不在于游戏本身，而在于它的知名度。即便没玩过这款游戏，人们依然能分辨哪个方块状的菠萝更逼真。“《我的世界》能让 AI 发展的进步更加直观，大家对《我的世界》的风格和视觉效果都很熟悉。”

目前，MC-Bench 的志愿贡献者共有 8 人。从 MC-Bench 网站的信息获悉，Anthropic、谷歌、OpenAI 和阿里巴巴为该项目提供了 AI 计算资源支持，但并未直接参与开发。

“目前，我们的测试仍然较为基础，主要用于观察 AI 从 GPT-3 时代至今的进步。但未来，我们或许会拓展到更复杂的目标导向任务和长期规划能力评估，游戏或许是测试 AI 智能体推理能力的一种理想方式 —— 相比现实世界，它更安全，也更可控。”

严格来说，MC-Bench 仍属于编程基准测试，因为 AI 需要编写代码来生成建筑，例如“霜雪人”或“热带风情的海滨小屋”。

相较于分析代码，大多数用户更容易通过作品本身来评判 AI 的表现。至于这些测试结果是否能真正衡量 AI 的实际应用价值，仍有待商榷。但辛格认为，这些数据仍然具备重要参考意义。“MC-Bench 当前的排行榜与我的实际使用体验高度吻合，而这在许多传统文本基准测试中并不常见。或许，它能帮助 AI 开发者判断自己是否走在正确的方向上。”

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿，经过编辑审核收录，不代表头部财经观点和立场。
证券投资市场有风险，投资需谨慎！请勿添加文章的手机号码、公众号等信息，谨防上当受骗！如若本网有任何内容侵犯您的权益，请及时联系我们。

尼康Z50II：摄影新境界，创作无极限

2025-03-239阅读
视频创作界的“变形金刚”，全能无敌！

2025-03-239阅读
1秒钟生成3D模型！腾讯混元甩出5款开源3D模型，自研架构加速效果超30倍

2025-03-239阅读
独家对话明讯科技创始人吴凌峰：我为什么公开指控同创伟业？

2025-03-239阅读
豪赌3800亿的野望，马云想回到巅峰

2025-03-239阅读
最强真全面屏！努比亚Z70 Ultra摄影师版入网：无挖孔无刘海

2025-03-239阅读
直屏之王！OPPO Find X8 Ultra关键参数出炉

2025-03-239阅读
一加13T蓄势待发：定价最低的骁龙8至尊版小屏手机

2025-03-239阅读
Excel世界冠军迈克尔·贾曼叫板微软Copilot：它目前还不能取代我

2025-03-239阅读
中国大模型应用市场2024格局巨变：中国电信入围Top8

2025-03-239阅读