文 | 中国信息通信研究院副院长 魏亮
国家领导人表明,数据属于新的生产要素,同时是基础性资源以及战略性资源,并且还是重要的生产力。党的十九届四中全会首次把数据当作生产要素提出。新一代高水平的数据标注在促使数据资源汇聚、提高数据质量、激发数据要素价值等方面起着越来越重要的作用,是支撑人工智能技术发展和应用落地的关键所在。2024 年 12 月,国家发展改革委等多个部门联合印发了《关于促进数据标注产业高质量发展的实施意见》,此意见对数据标注产业的高质量发展有着重要意义。我们需紧紧把握数据标注这一小方面,从服务国家战略的大视角出发,着力推动产业的高质量发展。
一、准确理解数据标注产业的内涵和重要性
数据标注是关键桥梁,它连接着数据资源、算法模型与实际应用场景;数据标注是关键环节,能挖掘数据要素的价值;数据标注是核心生产力,关乎人工智能的高质量数据集。
(一)从服务国家战略的政治高度定义数据标注产业
狭义而言,数据标注就是给未经处理的原始数据加上说明、作出解释、进行分类或者进行编码的过程,这样数据就能被人工智能算法所理解和运用。《实施意见》从服务国家战略的角度提出,数据标注产业是对数据进行筛选、清洗、分类、注释、标记以及质量检验等加工处理的一种新兴产业。数据治理各环节协同发展,能够带动数据标注产业的进步。数据标注产业的发展又会推动数据要素产业持续健康地前行。同时,这也为人工智能产业的发展奠定了坚实的基础。
(二)深刻认识发展数据标注产业的重要意义
数据标注是人工智能发展的重要基础之一。它贯穿于算法训练、模型评估、迭代优化以及场景应用等诸多环节。发展数据标注产业具有以下三方面重要意义:其一,有利于将数据要素的价值充分释放出来。数据要素价值实现的前提条件是原始数据从“信息”转化为“资产”。经过标注处理后的数据,具有更高的商业价值和应用潜力,并且能够被有效交易和流通。同时,这也有利于支撑人工智能能力水平的提升。数据标注过程会给模型学习的数据打上人类知识的标签,接着让计算机持续学习这些数据的特征,最终达成计算机能够自主进行识别的效果,并且建立起对现实世界环境和条件的理解。再者,这有利于人工智能为行业应用赋予力量。数据标注为自动驾驶提供精准、可操作的数据输入,使得人工智能能更好地理解和处理自动驾驶的复杂场景和任务;数据标注为智能家居提供精准、可操作的数据输入,使得人工智能能更好地理解和处理智能家居的复杂场景和任务;数据标注为精准医疗提供精准、可操作的数据输入,使得人工智能能更好地理解和处理精准医疗的复杂场景和任务。
二、充分发挥数据标注基地的示范引领作用
国家数据局负责统筹进行数据标注基地的建设工作。在 2024 年 5 月 24 日,发布了承担数据标注基地建设任务的城市名单。并且指导承担单位着重围绕技术创新这一任务开展相关试点工作,同时也围绕行业赋能开展相关试点工作,还围绕生态培育开展相关试点工作,以及围绕标准应用开展相关试点工作,还有围绕人才培养开展相关试点工作,另外围绕数据安全开展相关试点工作。
(一)明确数据标注基地建设任务要求
数据标注基地的建设,一方面承接了国家的重点工作要求,另一方面也是服务和支撑地方经济发展大局的关键路径。《实施意见》提出,要鼓励并支持数据标注基地进行先行先试,打造出一批具有科技水平高、资源集聚强以及辐射带动广等特点的典型样板。具体而言,鼓励承担试点任务的城市积极主动地开展先行先试的工作。要切实将数据标注产业打造成为推动区域经济高质量发展的新动力。通过这样的方式,形成对人工智能高水平自强自立发展的有力支撑。
(二)着力围绕六大任务形成标杆示范
数据标注任务发布后,各地方积极开展实践探索。在技术创新层面,促使数据标注从“人工”转变为“智能”,研发出自动化和半自动化的标注工具,并且搭建了一体化服务平台,从而大大提高了数据标注的效率以及准确性和安全性。在行业赋能方面,借助数据标注推动行业高质量数据集的建设,为传统产业向数字化、智能化转型提供了助力。在生态培育领域,加快引进和培育数据标注龙头企业,构建起数据标注的产业链、价值链以及生态系统,以此带动数字经济产业的发展。在标准应用层面,围绕数据标注技术以及行业的需求,引导企业踊跃参与标准的编制工作,并且推动相关标准在标注过程中的应用。在人才培养方面,设立实训基地,举办职业技能大赛等多种形式得以实施,推动了产教融合发展,培育出高端标注人才队伍,对就业产生了带动效应。在数据安全方面,构建了数据分类分级安全保护制度,搭建了数据安全风险防控体系,推动了数据安全运营的常态化和规范化。
(三)做好经验总结与复制推广
《实施意见》提出,要开展数据标注领域的相关活动,如创新论坛、场景案例征集以及学术交流等。同时,要遴选数据标注的优秀案例。并且鼓励举办诸如数据标注创新大赛之类的赛事,以强化数据标注创新成果的推广以及场景的拓展。具体而言,其一,要举办创新论坛以及进行学术交流,把数据标注基地、人工智能企业、数据标注企业等邀请过来,一起对行业发展进行探讨,将先进的技术方法和实战经验进行分享,推动知识的共享以及资源的互补。其二,要展开数据标注场景案例的征集工作和场景的拓展行动,挑选出不同行业和领域的应用实践,对行业高质量数据集开发利用的典型经验做法进行推广。要鼓励举办数据标注创新大赛等活动,以此来提高数据标注从业人员的专业技能,同时激发社会各界在推动数据标注产业发展方面的积极性、主动性和创造性。
三、着力构建完善的数据标注产业生态
产业生态建设的完善对数据标注行业的发展有着极为重要的意义。它能够推动产业链上下游进行整合,也能够促进上下游之间的协同。同时,这为数据标注行业的健康发展提供了基础,也为其健康发展提供了保障。
(一)激发各类经营主体的活力
数据标注产业要健康有序发展,就需要各类主体一同参与和协作。《实施意见》提出要努力壮大经营主体,让数据标注龙头企业、科技创新性企业、瞪羚企业和独角兽企业以及中小企业等各类主体在数据标注产业发展中发挥作用,以此推动数据标注技术的发展与应用,促进产业生态的构建,提升行业的竞争力。数据标注龙头企业具备强大的技术实力与市场影响力。它通过自建数据标注平台,推动了技术的创新,也参与制定了行业标准,在数据标注产业中起到了引领和示范的作用。科技创新型企业是推动数据标注技术进步的关键力量,它通过研发先进的数据标注工具,提升了标注的效率与准确性,促进了产业的技术升级以及应用的拓展。瞪羚企业凭借独特的核心技术以及市场潜力,成为了数据标注行业的领军者;独角兽企业凭借独特的核心技术以及市场潜力,成为了数据标注行业的创新标杆。数据标注行业中的中小企业通过提供定制化的数据标注服务,能够满足特定领域以及细分市场的需求。
(二)畅通数据标注产业链环节
《实施意见》提出,要让数据采集、标注以及人工智能应用的产业链保持畅通。要推动数据标注产业的上下游实现协同发展,并且完善数据标注产业的生态。数据标注产业链包含三个部分,其中上游的资源提供方会提供原始数据,并且它还是数据标注业务的场景赋能对象。中游数据标注的核心服务方提供数据标注相关的技术服务、平台服务、交易服务以及人力服务,这使得数据价值得以有效提高,也助力了数据产业价值的释放。下游的配套支撑方从标准应用、人才培育、生态培育以及安全保障这四个方面,为数据标注的核心产业赋予了力量。推动上游资源提供方的发展,推动中游数据标注核心服务方的发展,推动下游配套支撑方的发展,以实现产业链的协同发展,构建起更加完善且高效的产业生态。
(三)推动数据标注业务走出去,技术和人才引进来
《实施意见》提出,要借助我国数据基础设施的优势。鼓励国内企业去承接数据标注的国际业务。具体而言,要促使我国数据标注企业逐渐迈向国际市场。要让它们拓展海外的业务。为国际提供一批符合我国社会主义核心价值观的高质量数据集。《实施意见》提出,要开展数据标注科技人才的国际交流。要深化数据标注领域在技术以及产业方面的国际合作。还要支持企事业单位来牵头制定数据标注的国际标准。具体而言,要培养出一批具备国际视野的数据标注人才。要加速人才链与产业链之间的有效对接。要显著提升中国在全球数据标注产业中的影响力。要主导构建起国际统一的数据标准和共享机制。要推动数据标注产业实现高质量、国际化的发展。
总之,《实施意见》给数据标注产业指出了高质量发展的方向。它在数据标注产业的政策支持方面有积极作用,能推动创新驱动,有助于生态培育,可牵引需求,还能保障服务。以政策为牵引,借助政、产、学、研、用多方协同,我国数据标注产业会迎来繁荣发展,能为人工智能高质量发展奠定坚实的数据基础。
附件:
版权声明:本文为 “博览广文网” 原创文章,转载请附上原文出处链接及本声明;
工作时间:8:00-18:00
客服电话
0755-88186625
电子邮件
admin@lanyu.com
扫码二维码
获取最新动态