数据折叠
咖啡猫 2018-09-07 10:46:55

为推动智能时代的巨轮滚滚向前,AI行业需要庞大的、标注好的数据作为养分。这些数据大多出自一些拿着微薄收入、对AI一头雾水的年轻人,他们是人工智能背后的“人工”。

AI暗角

在科幻小说《北京折叠》里,城市里的上流、中产、底层三个阶层分别生活在三个空间,作者将这种阶层分化割裂喻作“折叠”。如今的AI的世界也存在着类似的折叠:

一边是炫酷的科技、神奇的智能应用;一边是大量人工每天重复地生产机器学习的“食物”——标注好的数据。

北京和贵阳,是数据标注世界里的两座“双子星”城市。北京聚集了大量人工智能公司;贵阳近年来着力发展“大数据战略”,已拥有相对完整的数据服务产业生态。

2017年,仅北京中关村大数据产业规模就超过700亿元;贵阳2017年的大数据产业及其关联产业规模总量超过1500亿元。

但标注数据的人,生活在这些巨额数字之外,拿着不高的工资,活动在“第二空间”。

从三里屯驱车1小时,行驶30千米,就到了北京邮电大学宏福校区。这里有北邮和华腾硕博合办的电子商务培训班,学生总数300多人,高峰时期,有120多人参与数据标注的兼职项目。

他们多是18岁左右的学生,每天盯着电脑屏幕给图片做标注。他们服务于一个炫酷的无人驾驶项目。

他们一个月的收入在2 000元左右,如果全职做,收入能有4 000~5 000元。他们参与的标注项目多是培训班从上游的AI公司承包过来的。

为什么是承包?

因为能够供机器使用的数据必须是经过标注的数据,这意味着需要大量人力去完成标注工作。而AI公司要么为了集中精力开展研发,要么为了保持团队的高学历占比,很少会选择完全自建数据标注团队。他们更倾向于把这些工作交给第三方公司完成。

而承包这类工作的企业,又有“众包”和“工厂”两种模式。前者是通过平台,如“百度众包”“京东众智”“龙猫数据”,把任务转发给网民;后者要么是正规的机构,要么是20人以下规模不等的“小作坊”,它们接到项目后会负责数据标注的全部流程。

目前来看,数据标注企业大多分布在三四线城市,属于“劳动密集型”的中低收入行业。愿意做这行的人,又大多把数据标注当成外卖、快递行业的替代品。

例如,在距离贵阳市中心50公里的百鸟河数字小镇,就有一个规模500人的“数据工场”。在这500名标注员中,近一半的人来自附近一家高职的学生。

这些学生很珍惜这个兼职机会。他们每月能挣到1 500元,不仅足以自立,省吃俭用还能补贴家庭。并且,数据标注不用在户外经受日晒雨淋,相对轻松、体面。

但这份工作的未来前途不可预期,以及相对低的收入和较大的家庭负担,都成为了这些年轻人无法摆脱的苦恼。

野蛮生长,坑与机会并存

数据标注是一个劳动密集型行业,进入门槛并不高。因此,许多公司就通过压低“成本”“薄利多量”的手段开展竞争。

据了解,许多专职数据标注的公司大多通过招聘临时工来省去五险一金的人力成本。事实上,在县级小城里仅凭7~8万元的启动资金就能组起一个“团队”。

另一方面,AI公司也倾向压低成本。对此,某数据标注外包公司主管表示,部分AI公司不够重视数据标注,他们在压低项目总体预算时,会选择把数据标注工作外包给一些不靠谱的团队。但这些团队做不下来,又会把任务转包给另一些小团队,或重新找到大的数据标注公司,直接影响最终质量和交付期限。

“低价竞争和行业不规范导致的层层外包是行业的噩梦。”京东众智平台的负责人李工还认为,外包还直接折损了小团队的利润。

例如,何军就在2017年底投入10万元,在河南周口成立了一个40人团队的数据工作室。

“利润其实不高,”何军细细算账,“一个拉框值4分钱,一个标注员一天能做大约4 500个,但过关率只有90%,实际只有160元左右,再除去审核的成本,再给每个标注员每天发110元左右的工资,平均下来工作室每天也就从每个人身上赚30元吧。”何军一直都只接到二手项目,第一个月亏了本,第二个月勉强持平。他希望在2018年“争取接到一手项目”。

事实上,小团队只能接二手甚至是好几手的项目,一手项目就像江湖传说——听过,没见过。

其实,大平台也反感层层外包。比如,要完成一些特定的复杂任务,需要对人员进行长达1~3个月的培训。然而,临时工组建而成的小团队大多跳过这一步。不仅如此,他们在理解客户需求,保证数据的多样性、随机性等方面也欠缺足够的能力。

还有5年,只有5年

何军时常处于一种对未来的不安之中,因为他对技术动向缺乏把握。当他听闻“算法升级后,将不再需要大量人工标注”时,便紧张起来。

数据标注服务商BasicFinder的CEO杜霖则认为,数据标注的市场才刚打开,未来5年内,数据需求将紧随AI的大规模落地,引来一波爆发式增长。

首先,这是由于AI行业本身的发展将进一步带动数据标注行业。

其次,目前能被建模量化的数据只占真实世界中的极少一部分,而现有的数据标注业务又主要集中在安防和自动驾驶领域,未来随着AI深入更多垂直行业,新的数据需求将不断出现。

杜霖就分享了一个很有意思的标注项目——将人的指甲框出来,因为客户要做美甲机器人。

第三,在当下主流的“有监督学习”算法模型下,为了让算法准确率更高,需要更多数据。

第四,从感知智能向认知智能的进化过程需要不同维度的数据,这可能会进一步催生出更精细的数据标注需求。比如,对一段对话数据的标注,不仅要知道对话内容、语义,甚至还需要标注谈话者的身份、情绪变化等。

杜霖还提到,目前AI公司的总支出中,20%~30%都用于数据,现阶段大陆市场数据采集及标注的规模保守估计也有50亿元。综合以上4点,未来包括采集、标注、清洗等流程的数据市场将达上百亿元。

值得一提的是,这些预期都是基于“有监督学习”这个大前提。如果算法从“有监督学习”升级为“无监督学习”等新算法,那么数据标注需求将大大减少。但是在目前,无监督学习等新算法尚不能用在大规模的商业落地中。

因此杜霖判断,新的革新性算法至少在5年内都不会出现。深度学习训练平台Novumind创始人吴韧也认为,深度学习+大数据较难出现颠覆性的其他路径。

5年,这对数据标注公司来说是一个可以布局、掉头的“窗口期”。

京东众智的李工说,他们应对变化的策略是着力研发加速AI落地速度的Pre-A.I.产品,并同时研发平台技术,做到“数据与流程分离架构”,因此数据标注不是他们的核心战略。

BasicFinder也有类似布局,他们希望一手对接垂直行业里的数据生产者,一手对接上游的算法模型公司,共同推进AI的落地。

但对数据标注员这些个体来说,5年后也许就得面临一次“失业”。那时,他们还能跟随时代的脚步腾挪转移吗?

烫手的小袁

小袁暂时想不到5年后那么长久的事。

他作为一名换过40份工作的聋哑人,很庆幸终于在数据标注行业成了“有用的人”。现在,他是京东众智平台上“静公会”的聋哑人标注员,而这个公会全部由听障人士组成。

聋哑人的世界里多为名词,缺乏形容词。比如,要向他们解释这根线标得不“直”,就会比较费劲。因此,健全人1周能完成的数据标注培训,聋哑人要花3周或更久。但是他们的优点是专注、较真、对视觉信号敏锐,数据标注行业反而成了他们的机会。

像小袁这样的聋哑人在众智平台上还有1 000多名,京东为他们成立的“静公会”,在项目工作上优先照顾。比如,杜霖手下也有3个残疾人团队,总共约80人。

杜霖和京东众智平台负责人都表示,愿意为更多残疾人提供工作机会,这里是他们的家。而其中的少数人,也许能通过转型为数据质检者,获得更长期的职业生涯。

需要思考的是,AI行业发展到一定阶段可能就不再需要大量的人工标注,届时,我们会遗忘这些AI领域的“首批工人”吗?这可能是除了技术水平之外,判断那个未来是好是坏的更重要的标准。

(本文摘编自微信公众号“甲子光年”)

编 辑:李垣谕 penguinpen@163.com

15
欢迎关注商界网公众号(微信号:shangjiexinmeiti)
标签数据  

评论

登录后参与评论

全部评论(229)

广告
广告
广告
商界APP
  • 最新最热
    行业资讯

  • 订阅栏目
    效率阅读

  • 音频新闻
    通勤最爱

广告