中央定调,“新基建”与社会各领域融合发展的步伐正在加速。在加大对新一代信息技术产业“硬”实力建设投入的同时,“软”实力同样不容忽视。
近日,艾瑞咨询发布《2020 中国 AI 基础数据服务行业发展报告》,指出作为与“新基建”有着强关联性的 AI 基础数据服务行业,将迎来潜力较大的市场空间。同时指出,目前人工智能商业化在算力、算法和技术方面基本达到阶段性成熟,想要更加落地, 解决行业具体痛点,需要大量经过标注处理的相关数据做算法训练支撑。
如果您想获得本报告的全文pdf,请在雷锋网(公众号:雷锋网)(公众号:雷锋网(公众号:雷锋网(公众号:雷锋网)))微信(leiphone-sz)回复关键词“603报告”提取。
文档来源:艾瑞咨询
一、AI 基础数据服务行业现状
1、数据决定了 AI 的落地程度,而 AI 基础数据服务行业却鲜有关注
人工智能的商业化在中国得到了长足发展,在安防、金融、企服等领域纷纷落地开花,同时也真正意义上衍生出了一套完整的产业链。
AI 产业链可以分为基础层、技术层和应用层。基础层按照算力、数据和算法再次划分,对整体上层建筑起到支撑作用;技术层根据算法用途分为计算机视觉、 智能语音、自然语言处理等,是 AI 最引人注目的环节;应用层则按照不同场景的需求定制开发专属服务,是 AI 真正赋能行 业的方式。
目前人工智能商业化在算力、算法和技术方面基本达到阶段性成熟,想要更加落地,解决行业具体痛点,需要 大量经过标注处理的相关数据做算法训练支撑,可以说数据决定了 AI 的落地程度,而 AI 基础数据服务行业又鲜有关注。
2、机器学习是主流,深度学习是主要方式,但泛化能力有待突破
机器学习按照训练方式可分为使用人工标注分类标签训练的监督学习、无分类标签且自动聚类推断的无 监督学习、使用少量人工标注+自动聚类的半监督学习和根据现实情况自动“试错+调整”的强化学习四类,而最著名的深 度学习同样是机器学习的分支,但因为模型结构的不同而与上述训练方式不在一个区分范畴,深度学习在训练方式上均可与四种方式发生重叠。
目前来看 AI 应用最广泛的计算机视觉和智能语音更依赖于监督学习下的深度学习方式,半监督和无监督是学术界尝试突破的方向,当下仅在如无人驾驶中急转弯场景训练等特定领域中得以尝试应用,而强化学习被认为是 更接近人类在自然界中学习知识的方式,在最佳路径选择、最优解探寻等方面有所应用,但泛化能力还有待突破。
3、定制化需求成为主流
随着 AI 商业化发展,AI 基础数据服务需求步入常态化,存量市场具有较为稳定的需求源头,而增量市场随着应用场景的丰富,以及新型算法的诞生,拥有更广阔的想象空间。
4、全球市场呈集群式发展
2019 年全球人工智能行业发展依旧火热,重点围绕北美、欧洲和亚洲三大区域发展,共有 5386 家活跃企业,27400 名高级 研究人员,20 座重点发展城市,产生了约 374 亿美元融资,其中自动驾驶、药物医疗、人脸识别、视频内容和金融反欺诈是获得融资最多的领域。
综合来看,美国仍然是人工智能领域的领头羊,每年不仅向全球输出最前沿的 AI 应用概念,提供最接近市场需求的应用场景,同时也吸收着世界各地不断涌入的人才、数据资源和创意灵感。以英国、德国为代表的欧洲发展区和以中国、日本、新加坡、印度为代表的亚洲发展区整体实力相近,但走出了两条完全不同的路径,虽然欧洲储备 了大量的 AI人才,但市场活性不强,对于创新业务的发展并不友好,而亚洲虽然人才储备不充裕,但市场活力十足,对 AI 技术充满了期待。
5、中国 AI 发展属世界前列,并处于上升期
对比 2019 年中国与全球人工智能发展情况,在 AI 相关论文发布数量、企业数量、融资总额、产业规模、专利申请数量等方面中国均居世界头部阵营,具有充分的市机场竞争力。
补足短板方面,目前全国已经有 35 所高等院校开设了 AI 专业,国际交流和国际人才引进也在不断加深。政府开始重视 AI 基础层创业公司的培养,资本方也更加关注 AI 芯片、机器学习算法、数据处理等产业链上游企业的发展,科技巨头企业更是提前进行了 AI 生态布局,建立了产业联盟,在各方的努力中,中国 AI 市场处于从局部向整体发展的上升期,行业前景良好。
二、2020 年 AI 数据服务的发展趋势
1、2025 年市场规模将突破 100 亿元
数据显示,2019 年中国 AI 基础数据服务行业市场规模可达 30.9 亿元,其中图像类、语音类、NLP 类数据需求规模占比分别为 49.7%、39.1% 和 11.2%;根据需求方投入情况和供应方营收增长情况推算,预计 2025 年市场规模将突破 100 亿元, 年化增长率为 21.8%,该行业核心业务与当下以监督学习为主的人工智能市场具有强相关联系,市场发展前景向好。
2、从需求角度看,增量市场将替代存量市场成为主要拉力
AI 基础数据服务市场从需求角度看可以分为存量市场和增量市场,存量市场中巨头互联网科技公司和 AI创业公司为主要需求方,项目落地所需要的采集、标注数据逐渐成为需求核心,存量市场仍是目前 AI 基础数据服务市场的需求主体;增量市场是相对于存量市场而存在的,以海外市场、国内新需求方市场、国内新兴业务拓展和国内新成立的 AI 创业公司需求为主,增量市场虽然近些年对于整体市场规模的贡献率不够明显,但随着中国人工智能技术的不断深入与国际化,在未来将成为主要的拉动力量。
从短期来看,AI 基础数据服务市场增速仍然与存量市场增速紧密相关,主要依赖于已有客户常规业务委 托,以及如语音识别业务中方言、小语种数据需求增加等内容更新需求支撑发展,随着存量市场需求逐渐长尾化,供应方 将会更加关注增量市场的拓展,来减轻对已有客群的依赖,达到良性的可持续发展。
3、中小型数据供应商仍然是市场中的主要供应力量
2019 年 AI 基础数据服务行业 CR5(前五大企业市场份额)为 26.2%,处于低集中竞争阶段,行业活力充足, 发展空间良好。
前五大企业中,海天瑞声与百度数据众包越众而出,国内整体供应方中,以提供图像类数据采标服务的公司居多,内容涉及人像数据、OCR 数据、自动驾驶数据等,业务需求较为分散,其中以百度数据众包营收份额占比最大。相比而言,语音类数据需求较为集中,且供应门槛高于图像类数据,内容包含语音识别数据、语音合成数据等。
从供应方的发展来看,行业内部处于“洗牌”阶段,虽然中小型数据供应商的整体体量仍然可观,但随着业务门槛提升、 客户需求多样化、价格战中利润被压缩等情况成为常态,越来越多的中小型数据供应商在苦恼生存问题,加之业务断档期人员成本的压力,该群体在未来1-2 年内将迎来一阵“倒闭潮”。
数据显示,2019 年中小型数据供应商份额比预期值缩小了20.8%,而这部分份额按 7:3 的比例,向品牌数据服务商和需求方自建团队释放,作为行业的头部阵营品牌数据服务商在这一阶段受益最多,不仅营收方面得以增长,也逐步稳固了自身领头羊的地位。
根据增量市场的特征,品牌数据服务商在品牌效益、团队建设、资质、服务意识、业务能力等方面均有优势,在未来增量市场成为主要拉动力的竞争阶段将占有更大的主动性,从这两方面看,未来品牌数据服务商阵营将替代中小型供应商阵营,占有市场的主要份额。
4、图像、语音、NLP数据是核心需求
人工智能主要算法应用领域集中在计算机视觉、语音识别/语音合成,以及自然语言处理。
图像方面,一个新研发的计算机视觉算法需要上万张到数十万张不等的标注图片训练,新功能的开发需要近万张图片训练,而定期优化算法也有上千张图片的需求,一个用于智慧城市的算法应用,每年都有数十万张图片的稳定需求。
语音方面,头部公司累计应用的标注数据集已达百万小时以上,每年需求仍以 20%-30% 的增速上升,要求数据服务商不仅要掌握专业的声学知识、数据标注经验,还要拥有语音合成的算法能力。
自然语言处理方面,随着工业、医疗、教育的AI应用产品进一步爆发,将会有更多交互方式出现,自然语义数据处理的需求将会持续增长,有望成为继图像、语音之后的第三大增量市场。
5、一体化数据平台是大势所趋
随着 AI 基础数据需求多样化,以及复杂程度的提升,以往项目经理“人管人”的管理方式和使用单一工具应对单一需求的执行方式在能力和效率上都显得捉襟见肘。因此,拥有一套自主研发贯通数据库设计、数据采集、数据处理、质量检测、质量控制和数据安全管理等各环节于一体,并且能对图像、文本、语音、视频以及点云数据做到一站式加工处理的管理和执行一体化平台,是实现人力驱动向技术驱动的关键一步。
6、感知智能助力形成行业壁垒
AI 在数据标注领域主要应用于数据采集和数据处理环节。在数据采集环节,通过使用计算机视觉和语音识别技术对样本进行初步识别,可以在短时间内达到 90% 以上的校验正确率,实现几倍于人力的工作效率。在数据处理环节中,应用人工智能可以对图像数据进行场景分割、人脸和物体识别,对于语音数据进行语音识别、文字转写和自然语言理解的预处理操作,自动完成标注后,再由人工进行校对,不仅降低了标注难度还变相增加了生产力。在数据采集和处理环节中应用感知智能,进行人机协作,将成为 AI 基础数据服务行业精细化管理中鲜明的竞争壁垒。
7、语音合成需求持续增长
目前语音合成的主流方式可以分为波形拼接合成和参数合成两种,其中参数合成是利用文本参数和声学参数间形成映射模型,从而完成文本内容向语音转化的过程,所以在有限样本数据的情况下,参数合成语音成为了众多智能语音算法团队的首选, 随着深度学习在语音领域的突破,利用神经网络取代传统映射建模的参数合成方式,在合成效果上更进一步,逐渐减少了合成语音的机械感。
目前该领域主要由海天瑞声和标贝科技两家数据公司提供服务,未来随着物联网的普及,将会有更多交互设备出现,语音合成需求将会持续增长,在此趋势下,拥有语音合成数据处理能力,将成为具有排他性的竞争壁垒。
三、行业发展与壁垒
目前人工智能行业仍以有监督学习的模型训练方式为主,对于标注数据有着强依赖性需求,但随着 AI 商业化进程的演进,更具有前瞻性的数据集产品和高定制化服务成为了 AI 基础数据服务行业的主要服务形式。
从全球角度来看,人工智能发展依旧火热,逐渐形成以北美、欧洲和东亚为代表的发展集群,产学研各方人才向其中涌入,世界范围内的产业交流与合作逐渐形成规模,并日趋常态化。对比中国与世界的发展情形来看,中国正处于补全短板,丰富产业,培养人才,进而向外输出技术能力的快速发展阶段,人工智能行业发展前景良好,而作为强关联性的 AI 基础数据服务 行业受其发展红利的影响,未来市场仍有不小的上升空间。
从行业内部来看,伴随着上一轮 AI 创业热潮的平息,行业经过了 一轮洗牌,脱颖而出的品牌数据服务商和中小型数据供应商形成了主要的供应方力量,但随着需求方市场由粗犷向精细化过渡,项目要求提高、利润压缩、管理成本上升等问题迫使了一众中小型厂商提前离场,在未来一到两年内行业将再次迎来洗牌。
下游行业发展带来的利好,以及行业内部洗牌的趋势,对于品牌数据服务商而言是机会也是挑战,存量市场和增量市场具有稳步向上的潜力,洗牌后空白市场留出的空窗期将成为剩下企业的红利,但竞争也在悄然发生,红利过后市场将进入品牌间的正面较量阶段,对于存量市场和增量市场的抢夺将成为主旋律,这于对品牌公司的生产力、精细化管理能 力、利润把控能力、营销能力和品牌影响力都带来了巨大的考验,为应对竞争,品牌公司应在红利期就早早布局,以技术应用和研发为驱动力,产生更多行业壁垒换取更多主动性。
当前,AI 已经成为引领新一轮科技革命和产业变革的战略性技术,我国在人工智能领域的科学技术研究和产业发展,起步稍晚于以美国为代表的发达国家,但是,在最近十余年的人工智能爆发发展期我国抓住了机遇,进入了快速发展阶段。随着人工智能成为“新基建”重点领域,AI 产业化正加速向产业 AI 化迈进,最终将形成一个万亿级规模的庞大市场。