深度 Big Data, Big Brother

數據工廠裏的標記員:我們訓練人工智能,直到它取代我們

人工智能高效工作的背後,有賴於海量的數據學習,而數據標註員則扮演了老師的角色——他們手把手地教 AI 辨別物件、表情和動作,直到有一天被 AI 取代。


據報導中國目前有10萬全職、近百萬兼職的數據標註員。他們和小說中的機器人護工一樣,為外表光鮮的科技付出密集、艱辛的勞動,輔助人工智能不斷地接近無人之境,換句話說——他們都在為那個終將對他們取而代之的力量服務。 攝:Gabriel/端傳媒
據報導中國目前有10萬全職、近百萬兼職的數據標註員。他們和小說中的機器人護工一樣,為外表光鮮的科技付出密集、艱辛的勞動,輔助人工智能不斷地接近無人之境,換句話說——他們都在為那個終將對他們取而代之的力量服務。 攝:Gabriel/端傳媒

在劉宇昆的科幻小說《機器人護工》裏,一個美國家庭買了台機器人(機械人)護工照顧年邁中風的父親。護工既細膩又強壯,它常常給老人讀報紙,也能輕鬆將行動不便的老人抱起,美中不足的是,它偶爾會出現 bug,比如:陪老人過馬路時粗心大意、散步時又會被松鼠和蜂鳥吸引……直到後來,老人發現機器人護工原來是被人工操控的——在美國與墨西哥邊境的一間工廠裏,操控機器人的墨西哥女孩們蝸居在一排排的小隔間裏,像不知疲倦的機器人一樣工作。

在北京海淀區一間提供數據服務的工廠裏,數據標註員林雪正坐在電腦前,用自己新學到的400多個標籤給世界分類,比如:瓶裝礦泉水的標籤是「水」,裝水的馬克杯則要標在「家具」門類下。

貼標籤的目的,是像教小孩一樣教人工智能看圖識物。林雪的工作是在一張圖上把桌子、板凳、沙發等都用框標出來,再註明它們的名字和類別。她和同事們要標註成千上萬張這樣的圖片,以供人工智能學習。而在見識了海量外形、材質各異的桌子後,人工智能便會「一眼」認出桌子來。

據諮詢公司賽迪顧問預測,2018年,中國人工智能市場規模將超過406億元人民幣。勃興的市場牽引著年輕的廉價勞動力蜂擁而入。據科技智庫「甲子光年」報導,中國目前有10萬全職、近百萬兼職的數據標註員。他們和小說中的機器人護工一樣,用密集、艱辛的勞動輔助人工智能一步步接近無人之境。他們是光鮮科技投射在地上的陰影,終有一天,他們服務的力量將對他們取而代之。

攝:Gabriel/端傳媒

「你們打磨的每一個數據都會為人工智能做出巨大貢獻」

電腦屏幕上是一張男性駕駛員的臉,他的額頭中心、瞳孔中心、眼角、鼻翼和嘴角等處分布著共29個點——它們被稱為「人臉關鍵點」。

林雪把腦袋湊近屏幕,將駕駛員的雙眼放大數倍,細細檢查關鍵點是否準確落在眼瞼的邊沿。這是從一段夜晚行車視頻中一幀幀截下來的圖片,像素比90年代錄像廳放映的香港武打片還低。駕駛員正看向左側窗外,黑框眼鏡擋住了他部分眼睛。林雪歎了口氣:「天啊,這個眼鏡愁死我了。」

人臉關鍵點是人類識別的重要步驟之一。人工智能並非天生就能識別人的眼耳口鼻,它需要通過大量學習人臉關鍵點,來建立對五官輪廓的認知。在建立認知基礎後,人工智能便可通過這些點構成的輪廓特徵,算出上下眼瞼的距離,以此判斷人眼的睜閉狀態,並進一步檢測駕駛員是否在疲勞駕駛。

當你通過「刷臉」自動解鎖手機;當你點開美顏 App、兩抹嫣紅不偏不倚地落在你的兩腮上;當你出入海關,通關檢測設備從上到下掃描你的面部時,都在使用人臉關鍵點的相關技術。

而這些關鍵點,都是由林雪這樣的數據標註員標註的。在數據服務公司 BasicFinder 倍賽數據,300來個標註員正坐在電腦前,用細密、起伏的鼠標點擊聲製造出成千上萬個關鍵點。

21歲的數據標註員林雪,每個月能賺到4、5000元,並熟練掌握了多種數據標註。她不再像剛入職時那樣,每天都感到非常累,「已經習慣了。」但她心裏總是繃著一根筋,「只有工作結束,走出工廠的那一瞬間,我才感到真正的放鬆。」

21歲的數據標註員林雪,每個月能賺到4、5000元,並熟練掌握了多種數據標註。她不再像剛入職時那樣,每天都感到非常累,「已經習慣了。」但她心裏總是繃著一根筋,「只有工作結束,走出工廠的那一瞬間,我才感到真正的放鬆。」攝:Gabriel/端傳媒

林雪今年21歲,畢業於山東省德州信息工程學校電腦專業。這所公辦中專有著務實的風格——讀書期間,學校就曾安排學生們實習做文字錄入,林雪一分鐘能打100多個字。

2015年,林雪進入 BasicFinder 實習。一開始做錄入工作,把外國人手寫的素材一個字母一個字母敲入電腦裏,「我不認識它,不知道它念什麼,但我能給它打出來。」

在錄入崗位工作數月後,她轉去做數據標註。第一個任務是給圖中的人標骨骼點:頭頂、脖子、肘部、手腕、膝蓋……一共15個。通過學習這些點,AI 便能預測人的下一個動作,幫助無人超市監控購物者的抓取行為,亦可運用在安防領域。

「一開始吃了不少虧。」林雪回憶道。骨骼點要切合身線,稍有偏離就算錯。甲方要求98%的準確率,每個圖包100張圖,只要錯誤超過兩張,整包數據就會被駁回,重新檢查。

「這一行找人很難,做標註要有足夠的耐心和責任心,偷奸耍滑會影響整個數據集的質量。」杜霖今年31歲,是 BasicFinder 的 CEO,這間公司有一個工程師團隊負責研發和管理各類數據標註的工具模板。除了北京總部,他們還在河北、河南、山東、山西等地投資建設了數家專門做數據標註的工廠,標註員總數接近2000人。

事實上,數據標註員的淘汰率相當高。據杜霖介紹,做圖片標註的員工,淘汰率在20%到30%之間,做語音標註的淘汰率甚至接近七成。「中國的人口紅利在慢慢消失,而且現在的95後比較有思想,很難管理。」

入行三年,林雪不知道和多少同事告過別。但她堅持了下來,這份工作讓林雪在家鄉的小夥伴面前很是抬得起頭——他們大多沒有穩定、正規的工作,更別提在北京上班了。放假回家,林雪在母親的身上比劃15個骨骼點,她並不清楚標這些點要用來做什麼,母親問她,她說應該是關於人體的。

數據標註員將相圖片中的人標骨骼點:頭頂、脖子、肘部、手腕、膝蓋……一共15個。這些點可運用在安防領域、預測人的下一個動作;亦可被超市用來監控購物者的抓取行為。

數據標註員將相圖片中的人標骨骼點:頭頂、脖子、肘部、手腕、膝蓋……一共15個。這些點可運用在安防領域、預測人的下一個動作;亦可被超市用來監控購物者的抓取行為。攝:Gabriel/端傳媒

林雪的家鄉在河北省吳橋縣,那是一座以雜技聞名的縣城。林雪的父親是一名裝修工人,也在北京工作,母親因身體不好,留在家中照顧林雪的弟弟和妹妹。標註員的工資是每個月4000到5000元,林雪會把一半的工資寄回家,「我是老大嘛,要供妹妹讀書。」

她記不得自己標註了多少圖,倒是記得一張閲兵的照片:幾個長官站在最前面,四周都是人,一排一排的,密密麻麻——每個人都要標15個點。「做那個項目的時候心情還是挺壓抑的。」

疲倦是標註員的大敵。「說到底,我們現在做的事情就是客戶最終想要電腦做的事。」杜霖說。BasicFinder 會監控標註員的疲勞度,把相同的任務間隔一定時間指派給一個人,如果後一次的結果和前次相差較大,系統即會檢測出來,並提醒標註員:「你已經累了」,可以換別的任務來做或乾脆休息一下。

杜霖常用特斯拉(Tesla)的自動駕駛事故給員工「打雞血」。2016年5月7日,一輛自動駕駛模式下的特斯拉與垂直方向開來的一輛白色拖掛卡車相撞,導致特斯拉車主當場死亡。這是美國首例涉及汽車自動駕駛功能的交通死亡事故。事後特斯拉公司發表聲明稱:白色卡車在藍天背景下識別不出來,以特斯拉自動輔助駕駛系統的視角看,卡車側面是懸浮在地面上的,因此沒有啟動剎車。

「我一直跟他們說:『你們打磨的每一個數據都會為人工智能做出巨大貢獻,將來的無人駕駛車能夠識別出藍天下的白色卡車,就是因為你當年把它標出來了。』」

這些話深深地激勵了林雪。「標車的時候,如果標錯了,我就會擔心給它以後造成不好的影響。如果被返工,我會想『還好返工了,要不這些數據被使用了就壞了。』」

一個深圳的客戶曾在朋友圈分享了無人駕駛公交車的視頻:司機坐在駕駛座上,雙手背在身後,方向盤會在遇到車輛或轉彎時自己轉動。林雪不記得把那段視頻翻來覆去看了多少遍,「好酷啊,那裏面肯定有我們做的數據,有我們一份功勞,我就覺得很驕傲。」

那種感覺,就像是一不小心踩上了時代的浪潮。

數據標註:AI 的原動力

3月5日,中國國務院總理李克強在政府工作報告中指出,要加強新一代人工智能的研發應用。這是繼2017年後,「人工智能」第二次被寫入政府報告。

「AI 是中國第一個真正有機會制定遊戲規則的技術領域。」牛津大學人類未來研究所的Jeffery Ding在報告《解碼中國AI夢》中指出。報告從硬件、數據、算法和產業四方面衡量一個國家AI的綜合實力,其中,數據是中國唯一領先美國的方面,佔據全球數據總量的20%。

寬鬆的隱私保護政策,令中國企業和政府收集到海量數據。僅以監控視頻為例,中國目前有超過2000萬個監控攝像頭,每個攝像頭每天產生約7.2GB的數據量。

寬鬆的隱私保護政策,令中國企業和政府收集到海量數據。僅以監控視頻為例,中國目前有超過2000萬個監控攝像頭,每個攝像頭每天產生約7.2GB的數據量。攝:Gabriel/端傳媒

由於寬鬆的隱私保護政策,中國企業和政府收集到海量數據。僅以監控視頻為例,中國目前有超過2000萬個監控攝像頭,每個攝像頭每天產生數GB的數據量。

儘管有聲音認為,數據的重要性將隨著 AI 的發展而降低,仍有相當多人相信數據是 AI 發展的原動力。擁躉們最常舉的例子是:Google 的研究人員用3億張圖做了深度學習實驗,結論是數據量(指被標註過的數據)越大、學習效果越好。

「有監督的學習在未來5到10年仍會佔據主流,AI 行業對數據標註的需求一定會井噴式上升。」杜霖說,「對中國的 AI 公司來說,數據正在變成痛點。」

這一方面是因為,數據標註需要大量勞動力的投入,且工作內容相對枯燥、重複。數據標註的主要內容是分類、拉框(用框選定需要電腦辨識的物體,比如人臉、汽車等)、標註關鍵點。在BasicFinder,一個標註員平均每小時要畫300到400個框。

「說白了,數據標註類似於一個工廠的流水線。」24歲的張索普曾在京東的數據標註團隊工作。出於數據安全考慮,一些大企業會內部消化數據標註工作。這被不少高學歷的員工視為「殺雞用牛刀」,且無形中增加了企業的用人成本。「老員工的積極性不是那麼高。」張索普說,京東會不定期為做數據標註的員工換崗。

也有公司在內部搭建專門的標註團隊。但是,「模型的訓練和數據需求是週期性的,任務不持續,今天有活、明天沒活,人員容易流失,管理成本很高。」杜霖說。

數據標註需要大量勞動力的投入,且工作內容相對枯燥、重複。數據標註的主要內容是分類、拉框(用框選定需要機器辨識的物體,比如人臉、汽車等)、標註關鍵點。

數據標註需要大量勞動力的投入,且工作內容相對枯燥、重複。數據標註的主要內容是分類、拉框(用框選定需要機器辨識的物體,比如人臉、汽車等)、標註關鍵點。攝:Gabriel/端傳媒

除此之外,由於各公司都將自家數據視為機密,造成「教學材料」無法流通,也在一定程度促成數據標註行業的繁榮。

「數據沒有打通,因為大家都花了太多錢在數據上。」杜霖以自動駕駛領域的數據標註為例,「我用 A 公司的數據模型放到 B 公司的設備上跑不通,甚至攝像頭換了一個角度、位置或分辨率,都跑不通。」

在這樣的背景下,大大小小的數據標註公司像稻穗上的穀粒,蜂擁著、迫不及待地跳入水裏,並很快將市場煮成了糊鍋的粥。

AI 很光明,我們很迷茫

4月,何元飛的數據標註團隊停工了整整十天,蝕了三萬元。

他今年28歲,來自河南省漯河市。去年底,何元飛將手中的物流生意轉給別人,投身到火熱的 AI 浪潮。他花兩萬元租了一年的辦公室,購置了37台電腦,又從當地招了30多個員工。何元飛覺得自己給了他們一份體面的工作——這些20來歲的中專生,之前都在從事類似傳銷的網絡銷售工作,而現在,他們在辦公室裏使用電腦,一個月最多能拿到3500元。

好景不長。「春節過後突然出現很多新團隊,公司壓價特別狠。」何元飛去年給自動駕駛公司 Momenta 做拉框,一個普通框的價格是7、8分錢,到今年四月,價格已跌至3.9分錢;有的活計甚至低至4、5釐一個框。可即使這樣,還找不到活做。

數據標註行業實行這樣一套分工流程:上游的科技巨頭把任務交給中游的數據標註公司(比如BasicFinder),再由中游眾包給下游的小公司、小作坊(比如何元飛的團隊),有的小作坊還會進一步眾包給「散兵遊勇」:比如學生或家庭主婦。一些任務經過數手轉包,酬勞已低得驚人。

「AI 是很光明的,但我們這些小工作室很迷茫,聽說很多公司都不幹了。」何元飛說。

科技巨頭間數據未打通的後果也在這些小作坊肩上傾倒了沉重的負擔。「每個公司的標註軟件都不一樣,都要重新培訓工人。」與此同時,小作坊的專業度也逐漸顯露疲態。何元飛不久前接到一個百度無人駕駛車的數據標註工作,光是新規則培訓就用了一週時間,即使這樣,返工率依舊很高。「百度太嚴格了,100張圖有近2000個框,不能超過5個錯。」

「這個產業沒有往良性的方向去發展,大家一哄而上,相互PK價格,最終的結果是兩方受損。」杜霖說。下游賺不到錢,做出的標註數據質量也差。

儘管目前的情況不樂觀,杜霖依舊相信,數據標註行業最終會大浪淘沙,而他們,是走到最後的那一批。

BasicFinder的數據標註公司CEO、31歲的杜霖始終相信,目前亂糟糟的數據標註行業最終會大浪淘沙,留下最專業的團隊。而市場仍不斷的膨脹,從公司打卡到監獄管理,再到道路監控、追捕逃犯,做數據標註、錄入的市場規模能達到百億級人民幣。

BasicFinder的數據標註公司CEO、31歲的杜霖始終相信,目前亂糟糟的數據標註行業最終會大浪淘沙,留下最專業的團隊。而市場仍不斷的膨脹,從公司打卡到監獄管理,再到道路監控、追捕逃犯,做數據標註、錄入的市場規模能達到百億級人民幣。攝:Gabriel/端傳媒

「最後一批被 AI 取代的人」

令杜霖和其他從業者們感到充滿希望的是,下游市場陷入混戰的同時,上游的 AI 市場從未停止過膨脹。其中,以人臉識別市場最為興盛。從美顏相機、直播軟件,到公司考勤、學校接送,再到出入邊境、對人員和道路的監控,人臉識別正在成為人們進入這個社會的「入口」。

「這塊市場,只要AI系統一運轉,就能賺錢。」杜霖甚至大膽估計,做數據採集、標註、錄入及審核的市場總規模能達到百億級人民幣。

「現在最大的一塊市場是審核。你能想到的任何一個有用戶的公司都需要一堆人來做這個事情。」不久前,Facebook、今日頭條相繼投入重金建立專職的內容審核團隊,因為人工智能尚無法精確理解語義內涵,需要人來一一識別。

與此同時,數據標註行業亦在迭代,一些門檻更高、學科更細分的領域正露出頭角。從京東離職後,張索普加入一家做智能客服和智慧醫療的公司。智慧醫療的工作需要對病理切片等進行標註,以腰椎間盤突出的 CT 片為例,標註員必須準確識別並標註出間盤的輪廓。

這類工作,是林雪這樣的標註員無法勝任的,通常需要請醫生或醫學院的學生來做,成本極高。合作過類似項目的杜霖說,醫學院學生的人工成本是普通標註員的20倍。

事實上,隨著 AI 技術的發展,早年一些基本的標註工作正被逐漸被淘汰。以自動駕駛模型為例,以前靠人工來識別車、行人,如今則由機器先標出來,然後人再檢查標註是否正確。

標註員的疲倦是這類工作的「大敵」,BasicFinder會監控工作人員的疲勞度,把同質的任務分割成小塊派給一個人,如果後一次的結果和前次相差較大,系統即會監測出來,並提醒工作人員:「你已經累了」,可以換別的任務來做或乾脆休息一下。

標註員的疲倦是這類工作的「大敵」,BasicFinder會監控工作人員的疲勞度,把同質的任務分割成小塊派給一個人,如果後一次的結果和前次相差較大,系統即會監測出來,並提醒工作人員:「你已經累了」,可以換別的任務來做或乾脆休息一下。攝:Gabriel/端傳媒

正如 Facebook 人工智能研究部門負責人 Yann LeCun 在多個場合強調的,AI的核心在於預測,AI的下一個變革是無監督學習、常識學習。也就是說,工程師們正在努力讓 AI 不依賴人類訓練,自己去觀察世界是如何運轉的,並學會預測。

但杜霖並沒有很強的危機感:「我帶領我們的人在做一件最有意義的事,在將每個個體的智慧轉化為 AI。我能保證,如果未來 AI 取代人類,他們是最後一批被取代的。」為什麼是最後一批?「因為總會有一個新的行業需要引入 AI ,需要(我們)為他們來做數據準備。」

對林雪來說,那都是非常遙遠的未來。問她會不會擔心自己的工作被取代,她想了想,說:「我會努力、再努力一些。」

如今,林雪已熟練掌握了多種數據標註,並升級為質檢員——檢查新員工的數據標註質量。她也不再像剛入職時那樣每天都感到非常累,「已經習慣了。」每天工作結束,林雪都會和鄰桌的小夥伴比拼,誰今天完成的任務多,她還想要學新的標註。

BasicFinder 北京工廠的標註員,大多數都是和林雪一樣、二十出頭的年輕人。他們身上常常顯出超越年齡的穩重和專注,沒有人裝飾他們的電腦桌,沒有貼紙、玩偶甚或一小盆綠植。工作期間,他們都神情嚴肅,鮮少聊天。

「只有工作結束,走出工廠的那一瞬間,我才感到真正的放鬆。」林雪說。

在林雪心中,這不是一份毫無意義的工作。有天林雪和父親走在北京街頭,她指著街上的車向父親解釋,自己拉的每一個框都會幫助自動駕駛的汽車在關鍵時刻及時剎車。

「那還挺厲害的。」父親答道。

(應受訪者要求,張索普為化名)

觸摸世界的政經脈搏
你觀察時代的可靠伙伴

已是端會員?請 登入賬號

端傳媒
深度時政報導

華爾街日報
實時財訊

全球端會員
智識社群

每週精選
專題推送

了解更多
Big Data Big Brother