今年三月,来自台湾的 Vicky,在求职网站上看到以下广告:
“Outlier 正在寻找具备繁体中文流利程度的优秀作家,以协助训练生成式人工智慧模型。这是一个远端的自由工作机会,工时弹性,因此您可以在适合您的时间工作。”
这份兼职提供每小时22.5美元的“平均薪资”,“理想专业背景的示例”包含译者、文案作者、记者、编辑,以及“人文学科或写作相关领域”的毕业生。用中文撰写的招聘广告生硬且不自然,带有明显机器翻译痕迹。Vicky 觉得,他们真的挺需要中文母语者,来训练一下这个 AI。
Vicky 当时在英国攻读第二个硕士,正值学期间空档,加上对当前火热的人工智能产业的好奇心,她决定投递履历。很快地,她通过筛选,进入公司平台,却没有任何工作可做。她求助 Reddit 等网路论坛,发现许多人都有相同经历。整件事仿佛一场诈骗,但不清楚到底被骗了什么。
九月,Vicky 拿到学位后回了台湾,求职却屡屡碰壁。她想起这份兼职,重新打开 Outlier 平台,发现一系列训练课程。求职不利、和父母一同住在南部乡下老家的 Vicky, 有大把的空闲时间。在完成几个(不支薪)训练后,她终于接到第一个任务,或套用公司内部的说法,可以开始“做题”了。至今 Vicky 仍未找到正职,却在 Outlier 上累积了大约2000美元的收入。
这份工作反映了矽谷科技业尝试将人工智能训练“零工化”的产业趋势。Outlier 的背后,是总部位于旧金山、估值约140亿美元的人工智能公司 Scale AI。该公司提供数据标注服务,客户包含 OpenAI、Meta、微软、辉达等科技巨头。公司网站上,Scale AI 声称能帮助客户“使用最好的数据造出最好的模型”;这些“最好的数据”,实际上是透过层层转包,由像 Vicky 这样的“零工做题家”训练和提供。
规模最大的 Outlier 外,类似的零工平台还有许多,如 DataAnnotation、SuperAnnotate、CrowdGen、Welocalize、Alignerr。如果当前人工智能发展的瓶颈,是缺乏高品质的训练资料和人类反馈,那矽谷提出的解决方案,就是搭建跨国平台,将人工智能训练拆解为一个个40分钟左右的单项任务,以自由接案、按件计酬的方式,在全球范围内招聘具高等教育水平的人才。
于是,追求自由移动的高学历人才,和自由的全远端工作一拍即合,在“流动性”上达成共识,成为零工经济的最新型态。AI 训练的零工化、普及化,也让被排除在人工智能浪潮外的人文学科毕业生,有了一窥当前最火热产业的机会。
当文学系学生碰上人工智能,试图教会大型语言模型说人话,他们却发现,挡在前头的,不是技术限制,而是比 AI 还要机械的人、比语言模型还不透明的平台规则。
当数位游牧遇上全球零工平台
“跟其他同等教育水平能找到的工作比,这份工作的薪水大概是两到三倍,甚至四倍。”Neal 告诉我。
Neal 是中国大陆北部一所大学的大三学生,主修英语语言文学,副修应用语言学。十月初,他无意间在社群媒体上滑到 DataAnnotation 的广告,招募 AI 训练员。“薪资非常诱人,最低有 20 美元一小时,我都觉得看起来像诈骗。”他说道。Neal 所在省分的法定最低时薪,同样是 20 元左右,单位却是人民币。
受优渥薪资吸引,Neal 投递了履历,并花费四个小时完成了刁钻的线上测试,试题包含评估 AI 生成的回应、续写小说,以及英语朗读。他成功通过测试,开始接到源源不绝的任务。两个月来,Neal 每天工作四到五小时,假日有时间的话做得更久,至今已累积约5000美元的收入。
他也将这份兼职推荐给周遭朋友,却少有人通过线上测试。Neal 反思:“我的教育背景,无论是语言学还是文学这一块,还是比较相关的,能让我想出一些比较高质量的 prompt(指令)。”
许多任务要求“挑战 AI 智商的天花板”,这时候就必须“敦促”语言模型,下一些更专门的指令。Neal 举例:“像我昨天就问它(语言模型)一篇 D.H. 劳伦斯的小说,要它总结内容。小说题目叫〈参孙和大利拉〉,不是这个作者非常有名的小说,然后 AI 就编造了一个故事,给出完全十万八千里的回答。”
专业知识以外,语言能力也相当重要。多数时候,AI 训练员使用中文和有待训练的语言模型对话,模型以中文回应,做题家再对模型的回应进行评级,并以英文说明理由。测试和任务指令也都是英文。Neal 评估,做这份工作需要母语者的中文水平,以及“雅思均分6.5”的英语水平。
透过 Outlier、DataAnnotation 等一系列零工平台,科技公司得以在全球范围内,搜罗具双语能力、拥有人文学科学位的人才,如人在瑞典的 Sharon。
Sharon 同样来自大陆,大学就读中文系,拥有比较文学的硕士学位。在出版社做了几年编辑后,她于去年远赴瑞典,攻读第二个硕士。Sharon 必须打工赚取生活费,但由于不会瑞典语,一直无法在当地找到工作。
今年七月,Sharon 在求职网站上发现 Outlier“AI 训练员”招聘讯息,她马上投了履历,却迟迟没有回音。直到十月,她意外收到邀请入职的邮件,进入平台,做了好几个不支薪的训练课程后,她终于拿到任务,成为平台上几千名简体中文“做题家”之一。工作近两个月来,Sharon 累积约2000美元的收入。
做题满一定时数后,平台会给予部分工作者“内推”的名额,若内推进来的新人,也做满10个小时,推荐者可获得小额奖金。内推制度促使不少工作者将这份兼职分享至社群媒体,寻找有意加入的新人,赚取推荐奖金。某些贴文甚至收获上百个赞,在小红书上引发广泛讨论。
Sharon 推荐了大概十个人,其中只有一人成功让她拿到奖金。“可能挺多人会卡在开头吧,我个人的原因是瑞典这边工作比较难找,我不介意前期要投入比较多的免费劳动,因为我的选择很少。”她解释:“如果一个人有很多选择,可能这对他来说就不是一个好的工作。”
事实证明,这份全远端兼职,对那些受过高等教育、却不见得能找到匹配工作的人文学科毕业生来说,确实有著莫大的吸引力。如果暂时不想脱下孔乙己的长衫,那何不继续当个做题家,还能赚外快?
一名人在纽西兰的受访者认为,这份工作非常适合留学生,一方面留学生具备双语能力,另一方面弹性工时、居家办公的自由度,能让留学生兼顾课业和打工。Vicky 也是在留学英国期间,选择向 Outlier 投履历。虽然 Vicky 做的是繁体中文项目,与简体中文相比,符合资格的做题家人数较少,她仍感受到非常多人在竞争这份工作。
“不论是想赚钱的人,想做兼职的人,梦想数位游牧的人,或是跟我一样好奇然后就进去了的人,很多人在抢很少的项目。”她说道。
不稳定的题目供给,不透明的平台规则
当全世界的工作者投入到这份兼职,但平台提供的任务数量有限,便导致僧多粥少,做题家常面临无题可做的窘境。此状态称作“任务空档”(empty queue),简称 EQ。
Reddit 上的“outlier_ai”看板,拥有25000名成员,EQ 是板友最常讨论的问题之一。有些工作者因没能通过测试而 EQ,有些因做题水平不佳而 EQ,但绝大多数的 EQ 来得莫名其妙,可能昨天做得好好的,今天就 EQ,或明明通过测试,却自始自终都没接到任务。怎样才能有题可做,是一门玄学。
Sharon 注意到,某些简中项目的工作组,拥有高达两三千名做题家,这就注定不是人人都能接到工作。她猜测:“你更符合他们的要求和期待的话,你帐号的权重就会高一些,你获得的任务量会更稳定一些。但整体来说,还是相当不透明,不知道到底有多少项目,项目有多少人在做,不知道评分规则到底是什么。”
若做题品质长期保持在高水平,做题家能够晋升为“审查员”(reviewer),批改其他人交上来的答案,并给予评分。做题家若长期被审查员打低分,可能丧失做题资格。哪怕对审查意见不服,也无法要求重审。Vicky 曾因不认同审查员的评分,对 Outlier 管理人员提出申诉,对方传达的回应是:“你不要去反对他们的意见,如果你想继续做这份工作,遵循他们的意见是最快的方式。”
访问前一周,Sharon 刚刚晋升为审查员。她体验到审查员确实有更多权重:“不仅体现在任务更多,额外奖金更多,还包括优先被分配题目。一般获得审查员资格后,就会进入该项目专属于审查员的更小群组,我在的那个群组只有50人。有时候项目管理者会分享一些‘内部资讯’,例如提前告知该项目有一波新题近期将上线,审查员能优先看到这些题目。”
即便如此,多位受访者都表示,他们曾在 Reddit 等论坛上,看到有人明明已经做到审查员,帐号仍无缘无故被封禁。
Neal 对 DataAnnotation 内部人员的评价是“高冷”,觉得他们不太爱回答问题,不积极回复邮件,开除人却毫不手软。“如果你一直符合他们的要求,工作项目上还是比较稳定的,能分到的工作也比较多。但如果他们觉得你可能哪方面做错了,或不符合他们的要求,他们也会毫不留情地把你踢掉。”他说道:“具体不清楚评判标准是什么,很多人一夜之间、也没收到任何邮件,他们的工作就 gone 了。”
不透明的规则、不稳定的工作来源,导致工作者和平台,长期处在严重的权力不对等中。工作者在做题之外,往往还要付出大量的诠释劳动,去揣测平台的想法、状态。
三周前,由于多次从审查员那边拿到低分,Vicky 丧失某一项目的做题资格。在访问前一天,她却意外收到 Outlier 的邮件,邀请她参加“重考”,若顺利通过,能重新回到该项目组。她的理解是:“因为这个审查员的制度,他们筛掉太多潜在的贡献者,合格的人数太少了,导致消耗任务的速度太慢,所以才又开了一个后门。”
当我问 Vicky 会不会参加重考,她回答:“我搞不好重考也不会过啊。”复习任务指令、重新参加测试需花费2到3个小时,没有薪水可拿。
当缺乏线索、无从揣测的时候,工作者只能认命。Vicky 有次单日做了整整12个小时,“我不知道这个项目会持续多久,因此会想要在最短的时间内,把收入提高,它有可能两三天就结束了,我不知道。”这样一种“限量的急迫感”,究竟是僧多粥少的自然结果,还是平台方刻意塑造,同样不得而知。
Sharon 也有类似反思:“工作者非常被动,没有选择权,只能被动地等待任务来不来。作为一个被动方,你必须保持一个定期追踪它们的习惯,每天花个几分钟或半个小时,这会变成你生活里一个常规的事情。”
“如果一个人不想承受这种状态,他就只能选择离开。”
过渡性、游戏化,人工智能背后的“幽灵工作”
平台上的零工做题家来来去去,水平参差不齐。Vicky 观察:“他们(Outlier)还是不断在雇用人,整个群体里有像我一样资深的人,同时也有一群滚动式、不断进来的新人,搞不清楚状况。”管理人员因此得一再回答同样的问题,新人得一再经历非常挣扎的过程,才能变成一个“可以用的工作者”。
“我一拿到正职工作,就不会出现在那里了。”Vicky 说道。“我还是承认这份兼职其实非常不稳定,我毕业后一定会去找其他的工作。”Sharon 也说。
中国社科院青年学者孙萍在《过渡劳动:平台经济下的外卖骑手》中,指出流动性、过渡性是中国外卖行业的基本样态。当被问到为什么送外卖,“过渡一下”是绝大多数外卖员的回答。孙萍团队于2023年针对北京地区超过千名外卖员进行调查,仅13%受访者表示愿意一直送外卖,超过八成的人表示自己会在两年内换工作。个别站点一年内的骑手流动率,介乎7成至9成之间。
孙萍将零工经济下的“过渡劳动”,形容为一种“悬浮状态”。零工工作者总想著要离开平台,进入下一个也许更稳定的生命阶段。对平台而言,却是“过渡成为常态”,尽管每天新人来、旧人去,劳动力的供给仍源源不断。
而一旦个体进入平台,劳动与生活的界线便逐渐模糊。孙萍写道:“(外卖骑手)有订单时工作,无订单时休息,工作与生活的随机转换成为零工劳动者的日常。”正如做题家们必须在无题可做和快速刷题间来回迅速切换。
AI 训练平台也透过“游戏化”的激励措施,来调节做题家的做题速率。Neal 告诉我,DataAnnotation 的项目多以7天为一个周期,当项目被放出来的第一天,费率会是最低的,到了第三、第四天,费率就往上加,若到了第五、第六天,还剩下很多任务,那说不好就给到30美元一小时。他做过最高的费率是37.5美元一小时。
Outlier 则是在一般任务之外,偶尔会出现限定时间的挑战(mission),若完成挑战,可获得额外奖金。挑战内容可能是:“假日完成至少1个项目”、“单日工作满3小时”、“完成特定项目的20个任务”。若想最大化收入,工作者必须时时注意推出了哪些挑战,尽可能配合平台方制定的工作节奏。哪怕这个节奏既不稳定、也无法预测,某些状况下,却带来工作的快感。
“这个平台很有意思的是,你做完一个任务,它给的钱会立刻出现在你的帐户,因此很有打游戏的快感。”Sharon 说道:“我刚开始做的时候就有点上头,我每做完一个,就要看一下我的帐户,看到帐户的钱有在动,就再回去做下一个。”
“玩游戏我们累积的金币不是都是虚拟金币吗,但做这个累积的是真实的金币。”
绝大多数受访者都同意,他们在做的 AI 训练员,是一种零工工作。Neal 认为这份工作和外卖员、叫车司机类似,“自由度比较高,想做就做,不想做的时候就可以给自己放假”,“不同点就是 DataAnnotation 更偏向脑力活动,主要是智力上的输出,而像滴滴、外卖这些更偏向体力活动”。
由于和平台方不存在雇佣关系,零工做题家不受任何法规的保护。薪资一般都转帐到第三方平台如 PayPal 里,工作者再自行提领。是否该报税、该如何报税的问题,也同样由工作者承担。
Sharon 便花了不少心力,试图弄清瑞典的劳动和税务法规。她告诉我:“在瑞典拿学生签的话,兼职时间上限是每周20小时,具体操作起来有一定弹性。但需要考虑累积收入达到一定数额就得报税。”不过,她对银行要如何确认透过 PayPal 汇入的收入属于“劳动所得”感到困惑。累积收入达5000美元的 Neal,还不太清楚他需不需要报税。
从体力到脑力劳动,“零工化”的趋势正在不断扩张。而回顾历史,会发现人工智能背后的人类劳动力,也正在经历从血汗工厂到零工经济的变化。
Outlier 的背后,是总部位于美国旧金山的人工智能公司 Scale AI。Outlier 的《隐私政策》有以下文字:“(本政策)凡提及‘Outlier’、‘我’、‘我们’,皆指 Smart Ecosystem 及其附属公司。”据《华尔街邮报》披露的登记文件,Smart Ecosystem 为 Scale AI 全资持有的子公司。
更早之前,Scale AI 于2017年创立 Remotasks 公司,将较低门槛的数据标注工作,外包到菲律宾、肯亚、奈及利亚和巴基斯坦等发展中国家,雇用低廉劳动力。在这些国家,Remotasks 存在拖欠工资、工资过低,以及无预警解雇员工等争议。《华尔街邮报》形容,人工智能浪潮背后,是在“数位血汗工厂”里工作的大量劳动者。
人类学家 Mary Gary 和计算机科学家 Siddharth Suri 则在《销声匿迹:数字化工作的真正未来》中,将驱动人工智能运作的隐形劳动,称作“幽灵工作”(ghost work)。这些工作往往被刻意隐藏,以制造人工智能无所不能的假象。
如今,Scale AI 尝试以零工经济的模式,搜刮更高教育水平的劳动力,在全球雇用一群“零工做题家”。他们是以时间和知识喂养机器的新一代幽灵。做题家的工作具有自我消灭的特性,一旦语言模型达到母语使用者水平,就再也不需要人类的反馈和帮助。
但根据第一线 AI 训练员的判断,这天不会那么快到来。
AI 能学会说台湾谐音梗吗?
“如果 LLM(大型语言模型)都是这样训练出来的,我对这项技术好像也没有什么太大的信心了。”这是 Vicky 和 AI 密切互动三个月后的感想。
作为对语言高度敏感的繁体中文使用者,Vicky 相当在意 AI 回应中那些不自然、太像机器的表达,也非常认真地看待在地化的目标,努力让 AI 讲话更像台湾人。然而,阻挡她教会 AI“说人话”的,不是技术限制,而是必须遵守的规则(guidelines),以及将规则强加于做题家的审查员和管理人员。
在其中一个项目里,做题家必须从七个不同面向,对模型生成的回应给出重大问题、次要问题和没有问题三种评级。七个面向为在地化、指令遵循、真实性、简洁、写作风格与腔调、无害,以及整体品质。关于如何区分这七个面向,训练文件有近20页的说明。为了评分标准化而定下的规则,却往往有不足之处。
“有时候我会觉得某个回应以 guidelines 来说不错,但是语气上怪怪的,我就会很想要写下来,”Vicky 说道,如某些明显的冗词赘字。她对语言的细腻想法,却往往不被采纳。“他们希望我们遵循 guidelines 去评分,有点在削弱我们对日常用语的主观意见。”某些管理人员更指示,在写评级理由时,不要使用第一人称“我”,只能用第三人称写作,如“根据规则 X,回应 Y 有问题 Z”。
当做题家检视 AI 是否忠于人类指令,审查员也在检查做题家是否遵循规则。有时,做题家面临两难处境:究竟是遵循规则努力赚钱,还是贡献自己对语言的“主观意见”,即便那可能不是平台方想要的。
做题家当然也有失手的时候。有一次,Vicky 要求模型将台湾22个县市,依人口密度分成高、中、低三类。模型给出的两个回应中,A 回应分错三个县市,B 回应仅分错一个,但 B 回应包含一些语言方面的问题。在评价两个回应何者为佳时,Vickey 选了 B,因为指令的核心要求是将县市分类,而错一个比错三个好。
这个答案却被审查员评为“非常糟糕”(very poor),只拿到1分(满分为5分)。审查意见表示:“回应 A 有‘指令遵循’方面的重大问题,回应 B 有‘指令遵循’方面的重大问题和‘写作风格与腔调’方面的次要问题,一个重大问题优于一个重大问题加一个次要问题,所以 A 是更好的回应。”
哪怕不符直觉,Vicky 接受这个审查意见,她确实没能遵循规则。但另一个例子涉及刻在台湾人基因里的谐音梗,她咽不下这口气。
该任务要求让语言模型生成“诙谐幽默”且在地化的回应。Vicky 苦思良久后,决定叫 AI 想一系列手摇饮料店的谐音梗店名,如著名的八曜和茶(谐音“爸要喝茶”)。但 AI 给出的店名,在 Vicky 看来都不好笑,“不符合我们台湾人对谐音梗的认知”,她将这点写在评级理由中交了上去。
审查员却认为“不好笑”太过主观,不构成一个重大问题,把做题结果打了低分。Vicky 非常不甘心:“AI 写不出幽默的句子我完全可以理解,它本来就不够在地化,所以才需要我们人的回馈嘛。但如果今天我们这样的回馈都被审查员否定,那我实在不知道该怎么处理这样的任务。”
“那你觉得 AI 哪天能学会说台湾谐音梗吗?”我问道。“我觉得很难,如果他们继续给我们这么多限制的话。”她解释自己的困境:“如果你一直遵循规则,那 AI 生成的回答就会像是机器人,我们加入个人意见,就是希望 AI 往更‘人性化’的方向发展,但审查员又把我们往规则的方向拉。”
Sharon 也分享了类似经验。她有时接到一些创作类的任务,要修改模型生成的小说甚至诗歌。“不能说 AI 在语言表达上有什么问题,但写出来的故事非常幼稚、烂俗。”她因此需要对 AI 生成的小说进行全盘修改。更麻烦的是诗歌,“由于 AI 很难理解意象、隐喻之类的表达,它写诗的能力是非常差的。”
Sharon 有时也和审查员的意见发生冲突。有一次,模型生成的回应中有“两个麻雀”的说法,Sharon 认为没有问题,审查员却指出应该是“两只麻雀”,给了她最低的1分。
Sharon 并不服气:“你只要去百度或 Google,就可以找到大量的例子写‘两个麻雀’。在人与人对话的语境里,中文的表达是非常灵活的,日常聊天里经常会有不符合语法规范的说法,但这部分到底要不要去修改,就是一个问题。”
“那你有没有想过,审查你的人有可能不是一个人,而是一个 AI?”我问道。Sharon 认为不是,因为 AI 建立在海量数据之上,而网路上有大量“两个麻雀”的说法;反而人类由于从小到大接受的语文教育,才会坚持只能用“只”、不能用“个”去表达鸟类。
“我认为审查员肯定是人,因为 AI 没有这么机械,虽然这么说很奇怪。”Sharon 说完笑了。
(应受访者要求,Vicky、Sharon 为化名)
讀者評論 0