从性能竞赛到可靠应用：阿里、蚂蚁在WAIC分别发布重要成果-新科技-资讯-头部财经

从性能竞赛到可靠应用：阿里、蚂蚁在WAIC分别发布重要成果

资讯 » 新科技 2025-07-27

东方网记者程琦7月27日报道：当AI大模型的“百模大战”进入深水区，业界的关注点正从单纯的能力比拼，转向更深层次的两个核心问题：如何持续突破性能天花板，以及如何解决“幻觉”问题，让AI真正成为可靠的生产力。在正在举行的2025世界人工智能大会上，阿里巴巴与蚂蚁集团分别就这两大议题交出了重磅答卷。

通义千问“三连发”，引领全球开源AI浪潮

在由阿里云主办的“开源·开放”论坛上，阿里巴巴再次展示了其在开源领域的领导力。本周，通义千问接连发布三款重磅模型，并迅速登顶多个全球权威榜单，引发全球开发者关注。

据了解，三款重磅大模型，分别斩获基础模型、编程模型和推理模型等主流领域全球开源冠军：千问3最新版基础模型（非思考版），被权威AI研究机构ArtificialAnalysis评为“全球最智能的非思考基础模型”；千问3推理模型比肩顶级闭源模型Gemini2.5pro、o4-mini，并斩获推理模型的全球开源冠军；AI编程模型Qwen3-Coder在代码能力及Agent调用能力方面取得重大突破，超越GPT4.1、Claude4等顶尖闭源模型，被开发者誉为「全球最好的编程模型」，一举登顶全球最大开源社区HuggingFace模型总榜冠军。

阿里云副总裁叶杰平表示，通义千问已实现全尺寸、全模态的全面开源，真正打破了开源与闭源模型的技术壁垒。这一系列开源举措在全球引发热潮，海外模型平台OpenRouter数据显示，千问API调用量三天内突破1000亿Tokens，热度超越GPT、Claude等。截至目前，通义千问家族的全球下载量已突破4亿，成为全球第一的开源模型家族。

破解“幻觉”，蚂蚁开源高阶程序（HOP）探索可靠应用

当大模型的能力日益强大，“幻觉”问题也成为其进入金融、医疗等严肃专业领域最大的“拦路虎”。在另一场聚焦专业生产力的论坛上，蚂蚁集团旗下蚂蚁密算宣布开源“高阶程序（High-Order Program，简称HOP）”大模型可信应用技术框架，为破解这一难题提供了全新思路。

浙江大学教授陈纯在论坛上指出，幻觉是智力的必然代价，关键不在于消灭智力，而在于构建能容错的工程化保障框架。

蚂蚁集团副总裁韦韬对此观点表示认同，他以人类工程类比：“个体的人容易犯错，但我们却能通过可靠的工程体系完成登月等复杂任务。”他认为，大模型的可靠应用，不应寄望于模型本身“十全十美”，而应通过智能体系与工程体系的结合来保障。

HOP框架正是基于此理念。它借鉴了人类工程管理中的标准作业程序（SOP）和检查清单等机制，通过将业务逻辑程序化、融入场景知识图谱，并在全流程中贯穿核验机制，从而将大模型不确定的“智力”输出，转化为可信、可控的专业生产力。

以金融联合风控为例，应用HOP框架后，原本依赖人工、流程冗长的建模周期被极大缩短，并实现了风控全链路的智能化与自动化执行，在确保高精度的同时，显著提升了效率和可靠性。

韦韬表示：“大模型可靠性的解法，不在于模型本身，而在于工程化和智能化的融合。我们开源HOP，就是希望与行业一起，将大模型从‘助手’真正变成规模化的‘专业生产力’，并催生出新的杀手级应用。”

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿，经过编辑审核收录，不代表头部财经观点和立场。
证券投资市场有风险，投资需谨慎！请勿添加文章的手机号码、公众号等信息，谨防上当受骗！如若本网有任何内容侵犯您的权益，请及时联系我们。

刚刚拿下工业大模型测评第一的北电数智亮相WAIC，展示AI赋能千行百业

2025-07-281阅读
来自世界人工智能大会的一线观察：“火爆”的智能体为何投资不温不火

2025-07-281阅读
重构模式，AI时代主流媒体以“智”擦亮老招牌

2025-07-281阅读
号称帮HR节省70%沟通成本，智联招聘发布多智能体协同产品方案

2025-07-281阅读
供应链首个自主AI Agent平台发布，迈入全链路自主决策阶段

2025-07-281阅读
大模型与机器人互促共进的当下，他们想要共筑世界的“新终端”

2025-07-281阅读
毕马威：人工智能已成为推动中国产业升级与经济高质量发展的关键驱动力

2025-07-281阅读
武超则：2025年是AI应用加速落地之年，B端落地进程或超预期

2025-07-281阅读
中金公司董事长：我国人工智能正加快实现跨越式发展，海内外市场对中国资产潜力进行了重估

2025-07-281阅读
金砖国家人工智能产业合作网络在沪启动

2025-07-281阅读