数据堂COO何鸿凌:大模型时代,数据标注战略价值越发凸显 | 数据猿专访

资讯 » 新科技 2025-08-08

“在一条看不见的战线上,数百万成人组成的“蚂蚁雄兵”,正在主导AI产业的走向。

很少有人意识到——所有人工智能的奇迹,始于百万双人类的手对原始数据的艰难标注。这些散布在山西、贵州,乃至印度、非洲的标注员,正用最原始的方式喂养最前沿的科技。

他们的工作有多重要,简单来说,没有这些人,AI得吃土。

数据标注顾名思义,就是给数据(文字、语音、视频)打标签,告诉AI这些数据代表的含义。比如,一张图片是鹿还是马,一段语音是京剧还是相声,这些看似简单的标注工作,却筑造了AI这座大厦的底座。

☆一场看图说话的比赛

数据标注乃至当前的AI跟一场看图说话的比赛——ImageNet关系很大。ImageNet提供了上百万张标注好的图片(比如有猫、狗)。参赛队伍的任务是:训练一个计算机程序,准确识别一个新图片的内容是什么。

2012年以前,参赛团队基本上都是采用“盲人摸象”的方式,比如先识别猫的尖尖耳朵的特征、然后长长的胡须、再看眼睛的形状以及毛茸茸的质感……这种方式的准确率始终很低。

2012年一支名叫AlexNet的团队夺冠,他们采用了一种叫做“深度卷积神经网络”的技术,这种技术不同于此前的方式,他们不再一条条硬性规定电脑“猫长什么样”。而是给这个“神经网络学生”看海量的猫及非猫的图。并告诉它哪个是猫、哪个不是猫。然后,让这个“学生”自己总结规律!最终成为一名鉴猫大师,扫一眼就知道这猫“开不开门”。

深度学习从此点燃了AI复兴的燎原之火,拥有海量标注数据+强大的并行计算能力(GPU)+深度神经网络模型,就能训练出超强的AI。这成为了后续AI发展的标准范式。

在AI的发展浪潮中,数据堂这个名字或许并不为大众所熟知,但在数据标注领域,它却是一个响当当的存在。数据堂成立于2010年,就在ImageNet比赛引发AI革命的前两年(值得一提的是,数据堂也是ImageNet重要的数据标注服务商)。从时间线上看,这似乎是一个奇妙的巧合,但从另一个角度看,这也预示着数据标注即将在AI领域大放异彩。

在WAIC 2025,数据猿与数据堂COO何鸿凌对话,探讨大模型时代下数据标注的进化和演变。

从教AI“认字”到教AI“思考”

在数据标注员眼里,AI跟一个宝宝没啥区别,都是教他认字。“最开始数据标注就像教幼儿园小朋友认卡片。”何鸿凌生动地表示,“标注员的任务就是告诉机器,这是猫,这是狗,红灯停、绿灯行——简单粗暴。”

即使是NLP领域,涉及的实体关系、语法等也比较简单。这对于标注员的要求也比较低,只要是成年人且可以熟练操作电脑,不一定上过大学,就能胜任这份工作。

但随着大模型时代的加速到来,数据标注的内涵和作用悄然发生变化。何鸿凌指出,当大模型发展到一定程度之后,参数和算力提升对于性能提升的边际效用降低,数据的战略价值就会凸显。这是一个非常自然的进化过程,需要更好的数据和更专业的能力。“现在标注员在教AI‘思考’,自己先得会思考。” 何鸿凌表示,“以前招工要求‘识字就行’,现在得考逻辑推理——AI在进化,人更不能躺平。”

大模型时代对于数据标注而言,可以说是2012年那场比赛之后,又一个颠覆性时刻,在很多方面都带来了巨大的变化:

·标注对象发生质变:从识别物体转向标注“思维链”, 大模型出现之后,AI的任务从听、说、读、写转变为思考。当用户提出一个问题,大模型必须保证回答的准确性和完整性,以及推理过程的逻辑性。这就要求标注员需解析“AI为何认为天空是蓝色的”,而非简单标记“天空=蓝色”。

·数据质量至关重要:识别错了小猫小狗也许无伤大雅,但随着大模型在关键场景,如医疗、金融、自动驾驶等深入应用,数据的精准度和质量将产生巨大的影响。甚至在一些领域,如自动驾驶,数据标注的质量将直接影响人身安全。

·人类标注员角色升级:标注员从原来的低端重复劳动,变成了高端且具有创造性的工作。此前的AI像教一个死记硬背的学生,需要靠老师一条条灌输知识点。但大模型不一样,它有强大的泛化能力。例如我们只需要给大模型学习一万个化学方程式,它可以推导出更多的化学知识。在这种模式下,标注员更多的扮演精神导师的角色,让AI能够自己推导和衍生,而不是手把手教它怎么做。

·数据形态碎片化:客户的需求越来越多样化,可能突然需要“两周内完成5000条东南亚方言金融欺诈对话数据”,传统流水线式的标注方式已经无法满足这种碎片化的需求。

·数据生产模式的变化:AI不再单纯依赖人类的单向“输出”,开始主动收集和吸收知识。此前,AI主要与人交互。现在,AI与物理环境的交互越来越多,像具身智能、自动驾驶等,已经能够从物理环境中主动“索取”数据,这对于传统的数据生产和标注,将产生巨大的影响。

数据堂打出一套组合拳

面对大模型新需求和新形势,数据堂打出一套组合拳:

针对大模型应用的两大环节——训练和推理进行突破。在训练环节,数据堂根据客户需求定制版权数据集,这些数据集对于提升模型的底层能力起到立竿见影的效果。在推理环节,数据堂准备了高质量的推理数据集,通过模仿学习和推理能力的提升,让AI减少学习成本,突破思考上限,真正做到“学以致用”。

“此前,我们更加关注AI的听、说、读、写能力,现在我们关注的是AI的思考能力。如果说过去数据标注的责任是让AI吃得饱,现在我们的任务就是让AI学得快、训得好。” 何鸿凌指出。

☆数据供给革命

在大数据时代,行业流传这么一个说法:更多的数据胜过更好的算法。当前,大模型面临公开数据枯竭的“困境”。人类创造数据的速度和规模,远远跟不上AI所需要的。

“在供给端,我们采用工业化方法加大数据的‘开采’。同时,也在探索以具身智能主动汲取外部数据的新路径。”何鸿凌指出。

除此以外,尽管数据堂目前所有的技术储备都在现实数据的采集和标注上,但对合成数据这一全新数据生产形式也非常重视。合成数据在很多领域已经被大量应用,比如AI生成的视频数据、文档数据等,自动驾驶领域比如摄像头图像、激光雷达点云、毫米波雷达数据,这些合成数据为大模型的发展提供了新的养料。

“我们在传统模型训练中的数据增强,也可以将其理解为一种合成数据的方法。在合成数据的模式下,我们与客户的合作关系会发生怎样的改变,需要进一步观察。”

☆数据标注技术创新

同时,数据堂也在大力推进标注技术创新。他们采用AI预标注、实时标注和人工完成等多种方法,结合模型的反馈,不断优化标注流程,提高标注效率和质量。

2025年,多模态已经成为大模型的主旋律。多模态大模型打破了数据藩篱,实现文本、图像、音频的深度协同。

针对此,数据堂专门开发了图像文本标注工具和工艺。用户可上传图片或PDF数据,工具支持通过拉框选定区域进行自动预标注,并能识别表格和公式结构。该过程生成的预标注结果需经人工校对和修正,最终可根据客户需求调整并转换为标准格式输出。此平台基于数据堂原有的内部系统构建,其内置流程确保了标注质量与传统方式一致,相当于新增的专业工具,适用于图像理解与生成任务。

视频标注逻辑与此类似,但因其增加了时间维度而更为复杂。数据堂在图像/视频标注(包括单帧与连续帧标注)方面拥有丰富的经验,因此在多模态数据的标注方面拥有天然优势。

何鸿凌表示:“同时,我们正关注阿里、腾讯等发布的3D世界模型,这将是下一步工作方向,需在视频的时间维度基础上,进一步增加3D连续帧的空间维度进行标注。”

☆产业模式重构

数据标注是一个“重人力资源”的产业,大模型的飞速发展极大扩张了对标注员的需求。但是“养”一支大规模的数据标注军团,对于任何一家企业都是难以承受的。

数据堂采取了三种模式高效、灵活的组建了一支庞大的标注军团。

第一种,标注基地。标注基地是数据堂的“根据地”,在基地的标注员都是全职员工,规模有几千人。基地的标注员有考核指标,受公司规章约束,作业过程要在可控的环境中进行。他们的技术门槛和能力要求都非常高,负责核心、高端的标注任务,为各类业务持续提供高质量数据集。

第二种,企业级合作商。据透露,数据堂目前国内外的合作商有两千多家,庞大的合作商保证数据供给的丰富度。

第三、众包员工。数据标注的工作中有一部分内容涉及到数据采集,数据的多样性非常重要。“数加加是数据堂旗下的数据标注众包平台,用户可以在平台上自由‘接活’。活跃在平台上的数据标注员规模达到上百万,光是通过数据堂培训考试的人数就高达几十万。”这些数据标注员大量分布在三四线城市,以及印度、韩国、东南亚和非洲等国家,他们共同组成了一条隐秘的战线。

目前,数据堂已构建强大的基础数据集,包括:

·语音数据:200万小时

·图像/视频数据:800TB,覆盖全球百万ID

·文本数据:PB级

如此海量的数据, 90%基础数据由全球百万众包完成,10%核心数据交安全屋内的资深标注员完成。随着大模型发展加速、质量要求提升,数据堂的生产模式正在发生重要变化:从依赖众包与合作商(基地占小部分产出),转向以基地为核心、占据主要产出的模式。

为敏感数据搭建安全屋

在数据标注的过程中,数据安全一直是至关重要的问题。特别是在医疗、金融、个人隐私和地图街景等领域,数据的安全保护需求更是严格。数据堂深知这一点,针对不同数据需求,设置了多个层级的安全措施。

何鸿凌解释道,最安全的模式,是将平台部署到本地。比如针对银行、保险、医疗等客户,把我们的自动化标注工具数加加,部署到企业内部,企业内部的数据不用出机房。我们的员工到客户现场,在客户可控的环境中进行标注。手机被禁止携带到现场,以防任何人通过拍摄或者拷贝的方式拿到任何数据。但相应的,这种方式成本会非常高。

第二种方式,客户通过连接专线或者VPN的方式从数据堂的标注基地获取信息,避免在互联网上传输。我们每个标注基地都有安全屋,标注员作业过程中受到严格的监控。

第三种安全措施,我们会在客户那里租用远程桌面,从客户那里传递过来的只是画面,而不是数据,这样可以有效保护隐私和客户机密数据。

目前数据堂每年都会有20、30个部署实例。其中一半在云上实现,另一半分散到各个业务中。

自动驾驶—数据标注新战场

除了聚焦大模型,数据堂也正在其第二大业务赛道——自动驾驶领域,狂飙突进。

自动驾驶这个业务场景的特点,是数据密集且运行环境开放。当前,自动驾驶正在“去地图化”,以前要靠高清地图“指路”,现在要求AI要能在任意天气和场景下实时理解环境。考虑到中国的复杂路况(如临时封路、不清晰或被破坏的标线),对障碍物检测和环境理解提出了极高的要求。

而且,端到端的自动驾驶不仅涉及感知(“看到什么”),更关键的是场景理解和决策(“如何思考和行动”)。这部分数据的标注是高度主观且复杂的,需要构建高质量数据集。例如,面对黄灯,不同驾驶员的选择(加速通过或停车),雨天该优先避让孩童还是老人?这些数据的标注不仅是科学问题,也是哲学问题。

因此,这类数据的标注必须由经验丰富的专家完成,他们要能理解复杂情境并做出可靠判断。

“总结来说,前端的感知标注(如障碍物、标识)虽工具复杂、工序繁琐,但本质是客观的,可通过详细规则手册规范化。我们真正的挑战在于后端的主观决策标注,因其涉及大量难以总结、规则化的隐性知识。”何鸿凌表示。

作为数据基础设施的构建者,数据堂自创立之初就践行“From AI,For AI,By AI”的理念。数据堂的发展是AI与数据标注相伴相生的缩影, AI在前面攻城略地,数据标注在后面提供弹药支援。AI发展到哪里,数据就“标注”到哪里。数据“标注”到哪里,AI才能抵达哪里。随着大模型迈向发展的深水区,数据标注的战略价值越发凸显。未来,AI这出大戏的更多戏份,或许会在数据标注的身上上演。



免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿,经过编辑审核收录,不代表头部财经观点和立场。
证券投资市场有风险,投资需谨慎!请勿添加文章的手机号码、公众号等信息,谨防上当受骗!如若本网有任何内容侵犯您的权益,请及时联系我们。