从性能竞赛到可靠应用:阿里、蚂蚁在WAIC分别发布重要成果

资讯 » 新科技 2025-07-27

东方网记者程琦7月27日报道:当AI大模型的“百模大战”进入深水区,业界的关注点正从单纯的能力比拼,转向更深层次的两个核心问题:如何持续突破性能天花板,以及如何解决“幻觉”问题,让AI真正成为可靠的生产力。在正在举行的2025世界人工智能大会上,阿里巴巴与蚂蚁集团分别就这两大议题交出了重磅答卷。

通义千问“三连发”,引领全球开源AI浪潮

在由阿里云主办的“开源·开放”论坛上,阿里巴巴再次展示了其在开源领域的领导力。本周,通义千问接连发布三款重磅模型,并迅速登顶多个全球权威榜单,引发全球开发者关注。

据了解,三款重磅大模型,分别斩获基础模型、编程模型和推理模型等主流领域全球开源冠军:千问3最新版基础模型(非思考版),被权威AI研究机构ArtificialAnalysis评为“全球最智能的非思考基础模型”;千问3推理模型比肩顶级闭源模型Gemini2.5pro、o4-mini,并斩获推理模型的全球开源冠军;AI编程模型Qwen3-Coder在代码能力及Agent调用能力方面取得重大突破,超越GPT4.1、Claude4等顶尖闭源模型,被开发者誉为「全球最好的编程模型」,一举登顶全球最大开源社区HuggingFace模型总榜冠军。

阿里云副总裁叶杰平表示,通义千问已实现全尺寸、全模态的全面开源,真正打破了开源与闭源模型的技术壁垒。这一系列开源举措在全球引发热潮,海外模型平台OpenRouter数据显示,千问API调用量三天内突破1000亿Tokens,热度超越GPT、Claude等。截至目前,通义千问家族的全球下载量已突破4亿,成为全球第一的开源模型家族。

破解“幻觉”,蚂蚁开源高阶程序(HOP)探索可靠应用

当大模型的能力日益强大,“幻觉”问题也成为其进入金融、医疗等严肃专业领域最大的“拦路虎”。在另一场聚焦专业生产力的论坛上,蚂蚁集团旗下蚂蚁密算宣布开源“高阶程序(High-Order Program,简称HOP)”大模型可信应用技术框架,为破解这一难题提供了全新思路。

浙江大学教授陈纯在论坛上指出,幻觉是智力的必然代价,关键不在于消灭智力,而在于构建能容错的工程化保障框架。

蚂蚁集团副总裁韦韬对此观点表示认同,他以人类工程类比:“个体的人容易犯错,但我们却能通过可靠的工程体系完成登月等复杂任务。”他认为,大模型的可靠应用,不应寄望于模型本身“十全十美”,而应通过智能体系与工程体系的结合来保障。

HOP框架正是基于此理念。它借鉴了人类工程管理中的标准作业程序(SOP)和检查清单等机制,通过将业务逻辑程序化、融入场景知识图谱,并在全流程中贯穿核验机制,从而将大模型不确定的“智力”输出,转化为可信、可控的专业生产力。

以金融联合风控为例,应用HOP框架后,原本依赖人工、流程冗长的建模周期被极大缩短,并实现了风控全链路的智能化与自动化执行,在确保高精度的同时,显著提升了效率和可靠性。

韦韬表示:“大模型可靠性的解法,不在于模型本身,而在于工程化和智能化的融合。我们开源HOP,就是希望与行业一起,将大模型从‘助手’真正变成规模化的‘专业生产力’,并催生出新的杀手级应用。”



免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿,经过编辑审核收录,不代表头部财经观点和立场。
证券投资市场有风险,投资需谨慎!请勿添加文章的手机号码、公众号等信息,谨防上当受骗!如若本网有任何内容侵犯您的权益,请及时联系我们。