一、数据标注与审核行业概况
目前数据标注有三种常用的划分方式,(1)按照标注对象进行分类,包括:图像标注、视频标注、语音标注和文本标注。(2)根据标注的构成形式,将其分为结构化标注、非结构化标注和半结构化标注。(3)根据标注者类型,分为人工标注和机器标注。
数据标注的分类及优缺点
资料来源:公开资料整理
二、中国数据标注与审核行业市场现状分析
随着人工智能、机器学习等行业对标注数据的海量需求,许多企业和研究机构纷纷推出了带标注的公开数据集.为了提高数据标注效率,一些标注工具和平台也应运而生。从市场规模来看,截至到2018年中国数据标注与审核市场规模达到52.55亿元,同比增长71.5%。
2015-2018年中国数据标注与审核市场规模及增长
资料来源:公开资料整理
2018年中国数据标注产业主要企业分布在华东地区、华北地区以及华南地区。其中华东地区数量占比最高为39.3%,其次华北地区为18.4%,位列第三位的是华南地区的16.1%。2018年中国数据标注产业500人以上企业数量占比为3.3%,100-500人的企业数量占比为42.8%,100人以下的企业数量占比为53.9%。行业规模企业数量仍较少,未来市场整合势在必行。
2018年末中国数据标注与审核企业规模分布(单位:%)
资料来源:公开资料整理
从产值来看,2018年中国数据标注与审核行业产值达到54.02亿元,同比增长71.8%。
2015-2018年中国数据标注与审核行业产值及增长
资料来源:公开资料整理
从中国数据标注与审核行业应用市场需求来看,2018年中国第三方数据标注与审核公司规模为17.87亿元,同比增长88.1%;2018年中国人工智能外包公司规模为17.34亿元,同比增长66.4%;2018年中国人工智能企业部门规模为17.34亿元,同比增长61.6%。
2015-2018年中国数据标注与审核应用市场需求
资料来源:公开资料整理
相关报告:华经产业研究院发布的《2019-2025年中国数据标注与审核市场前景预测及未来发展趋势报告》
三、中国数据标注审核行业面临的问题分析
目前中国数据标注与审核行业面临的主要问题为本身的局限性、平台管理水平落后、供应链整合度低、行业服务无序化与研发设计能力不足。
数据标注审核行业面临的问题分析
资料来源:公开资料整理
四、中国数据标注与审核行业发展趋势分析
1、细化数据标注任务
随着人工智能技术在一些行业的广泛应用,这些行业原有的数据标注任务已经不再满足业务需求。以智能安防为例,为了促进智能安防系统从传统的被动防御走向智能化的主动预警,一些新的数据标注任务也应运而生。例如,当一个神情紧张或者头戴面罩的小偷手握一根棍子准备翻越小区外墙企图实施盗窃行为时,安防系统应该马上启动报警系统,并及时向安防人员发出警告,以保障住户的财产安全。实现异常情况预警的新标注任务,包括表情标注、危险品标注和行为标注,利用这些数据标注就能帮助安防系统识别紧张的表情、违法的面罩和违规的翻越行为以及可能的凶器——棍子。从技术角度来看,新标注任务为异常行为的识别与建模提供了高质量的训练数据,也有利于提高模型训练的准确性。因此,针对特定的行业需求细化标注任务将是今后数据标注的一个发展趋势。
2、半自动化数据标注工具的研发
随着AI技术的发展,数据标注工具需要从只支持人工标注逐渐转化为人工标注+AI辅助标注的方法。其基本思路为:基于以往的标注,可以通过AI模型对数据进行预处理,然后由标注人员在此基础上做一些校正。以图像标注为例,标注工具首先通过预训练的语义分割模型来处理图像,并生成多个图像片段、分类标签及其置信度分数。置信度分数最高的片段用于对标签的初始化,呈现给标注者。标注者可以从机器生成的多个候选标签中为当前片段选择合适的标签,或者对机器未覆盖到的对象添加分割段。AI辅助标注技术的应用能够大大降低人力成本并使标注速度大幅提升。目前,已经有一些数据标注公司开发了相应的半自动化工具,但是从标注比例来看,机器标注占30%左右,而人工标注占比达到70%左右。因此,数据标注工具的发展趋势是开发以人工标注为主机器标注为辅的半自动化标注工具,同时,减少人工标注的比例并逐步提高机器标注的占比。
3、数据标注质量的改善
为了改善数据标注的质量,可以从以下三个层面开展相关研究。
(1)方法一,现有的众包工作大多集中在标签推理和激励机制的设计上,今后可以考虑利用自适应群体教学(即通过监督人群以教学的形式进行标注)来提高标注质量,或者利用隐藏在“脏数据”中的有用信息以降低标注样品(构建机器学习算法模型时用到的人工标注数据)的比例,它主要通过在脏数据上迭代地训练分类器,并根据迭代期间的估计置信度移动聚类中心,校正或删除样本。删除样本用来去除某些无法校正的低质量标注样品,以达到在保证标注样品质量的情况下降低标注样品比例,并实现对机器标注数据质量的提高。还可以利用模式识别结合一致性对标注数据进行评估并对标注人员排序以提高标注质量。
(2)方法二,针对被标注数据数量过大的情况,可以采取自动识别和概率统计相结合的方法提高对异常数据识别的效率,这里主要是指基于SOM(Self-OrganizingMap)和SVM的概率分布自动识别模式。SOM具有良好的矢量量化、数据融合和快速聚类能力,SVM在样本统计学习和倾向泛化方面表现良好。因此,将它们结合为两层结构模式,可以快速地识别异常数据的概率分布。同时,通过关联数据将同一类标注对象进行整合并分类管理,以便度量和监视大型标注团队的性能和质量。这样也能有效地提高数据标注的效率和质量。
(3)将学习人群模型与交互式可视化相结合,使专家能够快速访问最不确定的实例标签并去和工作人员进行验证,以此来提高标注数据的质量。
此外,如何将人类经验与学习规则充分结合以获取符合算法需求的高质量标注数据,如何对标注人员进行规范培训,如何制定标准的审核流程和控制标注质检的成本,如何从非专家提供的大量噪声标签中推断出真正的标签等都是目前数据标注质量需要尽快解决的问题和研究的方向。
4、数据标注中的安全性与隐私保护
为了保证数据标注平台中数据的安全性和隐私不被泄露,可以考虑采取数据治理、数据分割、数据安全传输和区块链等技术。数据治理是指对数据采集、数据清洗、数据标注到数据交付生命周期的每个阶段进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平确保数据在一个可控环境下使用。数据分割是指将涉密的待标注数据拆分成多个部分,分别指派给没有关联的不同团队,并且用数据接口的方式来传输数据,避免客户的数据被直接打包并互相传送,以便尽可能提高安全性。待标注的数据在分发和交付时都会涉及到数据传输,为了解决数据传输过程中存在的被盗、暴露和复制等安全性问题,就需要设计和开发出一个安全的标注数据传输框架,该框架需要提供数据加密、数据压缩和自动数据发送等功能。此外,基于区块链的数据标注平台采用强加密算法以及分布式技术来保障数据的安全,而且由于实现了社区自治,标注人员直接与提供标注需求的企业对接并获得标注报酬,避免标注任务的层层转包。平台一旦建设完成,全网节点均是平台的维护成员。区块链技术的使用可以避免企业用户(上传数据的账户)恶意搜集数据,也能防止个人用户(标注人员账户)批量搜集数据。