数据采集标注:人工智能产业落地的「至强」后盾

这两年,人工智能越来越火。

 

大到机场、火车站、商超、街道上的人脸识别设备;小到我们手机APP的各种算法,以及Siri、小度、小爱等语音助手,都与人工智能相关。

 

虽然人工智能应用的越来越普及,可我们还是会经常遇到APP推送不精准,语音助手像个“傻瓜”,人脸识别系统频繁出乌龙等现象……


乌龙闹剧:董明珠“闯红灯”。实际是公交巴士贴着董明珠头像,刚好被摄像头拍到,人工智能系统误以为是董明珠闯了红灯。


我们畅想的人工智能,是科幻电影中能够“想我所想”的人工智能。可我们面对的人工智能,却是频繁出错,甚至是难以落地的人工智能。

 

那么,面对这些问题,我们要如何解决?我们又要做哪些努力,才能让人工智能更加精准呢?

 

01
制约人工智能发展的要素

 

总有朋友认为,人工智能不准是因为训练人工智能的数据不准。其实,这个观点说对也对,但也并非全对。

 

数据确实是制约人工智能发展的重要一环。可制约人工智能发展的要素并不只有数据,算法、算力也是极其重要的因素。

 

如果以一辆汽车来比喻,算法是汽车的设计理念,算力更像是汽车的发动机,而数据则是驱动骑车前行的燃料。


光有燃料,没有好的发动机和设计,汽车自然跑不快。同样,光有发动机,没有燃料,汽车也无法不动。

 

按理说,三位一体的协同发展肯定是最好的。可当前人工智能公司的现状却是:很多公司已经具备了先进的算法和优质的硬件,产品不能落地还真是燃料的问题。

 

Testin有数总经理贾宇航在接受ToB行业头条(ID:wwwqifu)采访时表示:

 

“人工智能时代到来以后,越来越多的产品、APP、硬件成为人工智能落地的载体。在人工智能落地的过程中,很多企业受制于数据难题,在产品迭代、升级的过程中遇到了较大阻力。”

 

而关于人工智能企业面对的数据难题,贾宇航重点提到了两个:

 

  • 很多人工智能企业没有数据或可用的数据实在太少。这些企业在数据采集环节,就遇到了大问题。
  • 很多人工智能公司好不容易采集到了大量数据,却无法将数据标注精准,也找不到可靠的、拥有相关经验的人来标注。总要面临数据如何筛选、如何使用的难题。


那么,针对这些问题,人工智能企业又该怎么办呢?是否有一种办法,能够帮助人工智能企业解决当前的数据难题呢?

 02

数据要如何采集、如何用?


其实打从人工智能出现的那一天起,数据采集、标注等问题,就得到了诸多厂商的重视。
 
早在2005年,亚马逊就建立了Mechanical Turk论坛,希望通过众包模式,解决人工智能公司的数据处理需求。


但随着人工智能的逐步发展,AI落地已经成为行业发展的一大重要阶段,相应的数据服务也迈向了场景化以及精细化时代。


贾宇航介绍称,Testin有数目前主攻自动驾驶、银行、保险和安防领域,为其提供定制化的数据采集、标注服务,全方位支持文本、语音、图像、视频等各类型数据的处理。
 
“比如自动驾驶厂商需要采集司机的疲劳状况,却很难把设备安装到大街上的车里面。因为这样采集到的数据不仅不标准,还会涉及司乘人员的隐私问题。
 
但Testin有数却可以根据客户需求,在数据采集中心搭建模拟场景,利用专业的备采人群和软硬件设备,采集丰富的样本信息,满足客户的多种需求。”

 Testin有数定制化采集场景示意图
 
作为AI数据服务行业的领航品牌,Testin有数拥有自建的数据基地体系,所有标注员统一管理,规范生产,能够在保证数据准确率的同时,有效保证标注作业的信息流转。
 
Testin有数还开发了自研标注平台,支持标注类型定制化开发,让标注类型功能更为全面,保证标准化业务可以高效运行。
           
Testin有数标注平台示意图
 
当前,国内很多数据标注公司,还是典型的劳动密集型企业。这些企业为了节省人力成本,还在使用培训半天即可上岗的临时工,做的也是数据标注行业最简单的事情。


可Testin有数很早就看到了传统模式的弊端,早已通过采集基地的建立、标注平台的搭建和职前60天的优质培训,摆脱了标注行业的低端同质化竞争,实现了技能密集型企业的转型。
 
贾宇航始终认为:“劳动密集型的数据服务,过于依赖劳动力,企业天花板较为明显。这类企业对数据平台的建设不够重视,从业人员培训时间较短,数据标注的质量一般。


或许腰部公司会因为成本等原因,选择这类公司的服务,可头部公司一定会选择优质的数据标注厂商。因为只有优质的数据才能催生优质的人工智能,这是行业发展的基本规律。”

 03

高质、精准的数据

才是行业的未来
 
一个行业的成熟,一定离不开行业内成熟企业的推动。人工智能企业要想快速发展,必然离不开数据采集、标注行业的整体进步。
 
多年以前,我们经常会看到知名人工智能公司把数据采集、标注的服务外包给非洲公司,甚至有媒体在探访非洲数据标注工厂后感叹:“贫民为硅谷人工智能打工赚钱。”
 
其实,数据标注工厂建立在非洲等欠发达地区,就是为了获取廉价劳动力。正因如此,数据服务也被外界认作是人工智能金字塔上最底层的工作。
 
可金字塔的最底层,虽然不像塔尖那样耀眼,可底层却是体积最大、也是支撑金字塔屹立不倒的坚实根基。
 
在人工智能企业草莽生长的阶段,地基不牢的企业尚可借力发展。可当企业成长的越来越快,企业搭建的数字化尖塔越来越高,根基是否牢靠直接决定了企业的发展上限。
 
这也是为什么,从一开始Testin有数就对标注人员培训、对标注中心搭建、对数据采集平台开发极为上心的重要原因。
 
因为贾宇航始终相信,高质、精准的数据才是行业的未来。“当一般的数据公司还在争夺地上的‘六便士’时,Testin有数已经奔往了天上的‘月亮’。”
 
目前,Testin有数已经在华东、华北、华南设有数据交付中心和数据采集、标注基地,并成功为数百家企业提供AI数据服务。
 
与之相证的是,国内相关调研报告的结论也一片向好,数据标注行业正在稳步上行。
 
据艾瑞咨询最新报告显示,2018年中国人工智能基础数据服务市场规模为25.86亿元,其中数据资源定制服务占比86.2%,行业年复合增长率为23.5%,预计2025年市场规模将突破110亿元。
 
这一片蒸蒸日上的势头,不仅源于飞速发展的人工智能公司带来了大量需求,同样也离不开Testin有数这些默默耕耘的数据服务厂商,持续为人工智能行业提供着燃料。
 
确实,当前的人工智能还存在“不准”的现象,可我们却能看到,几年前,阿尔法狗在围棋领域完爆人类。而就在过去几个月内,此前发展了20多年都没被大众了解的RPA也突然火了。
 
为什么阿尔法狗能击败人类?为什么RPA突然爆火?这必然离不开人工智能算法的更新演进。可在技术成熟的背后,像Testin有数这样提供数据采集、标注服务的厂商也是功不可没。
 
正是数据采集与标注的成熟、精准,才能训练出阿尔法狗的精准算法。正是数据行业的不断积累,才让OCR、NLP等人工智能技术在今年变得成熟,从而推火了沉寂已久的RPA。
 

诚然,人工智能的前路还无尽漫长,但从以Testin有数为首的数据采集、标注厂商的发展方向来看,我们已经看到了行业未来的蓝图。

分享到

点赞(1)

说点什么

全部评论