游客

揭秘谷歌"审核员":工作的意义只是培训公司的机器取代自己

游客 2017-04-25 11:42:52    200681 次浏览

揭秘谷歌

据连线杂志报道,在美国有这么一群人,他们每天的工作内容就是打开电脑观看 Youtube 视频。这些人专门查看视频中是否含有暴力和仇恨言论等内容,并据此对视频作出“攻击性”或“敏感”等不同评级。他们便是谷歌所谓的“广告质量评级员”,帮助谷歌弥补机器算法不足的临时工。在自动算法未完善的今天,谷歌亟需这些人工评级员的帮助。

谷歌旗下的视频网站 Youtube 每天投放数百万条广告。谷歌用自动化的系统安排广告投放,广告客户并不知晓也不能决定自己广告伴随哪些视频展示。不过,最近这种不确定性给谷歌带来麻烦。许多报告显示 Youtube 竟然会在宣传仇恨和恐怖主义的视频上投放广告。由于这个原因,沃尔玛、百事可乐和 Verizon 等广告客户纷纷抛弃这个平台,谷歌更广泛的广告网络也遭遇信任危机。

谷歌回应称媒体夸大了广告丑闻。公司发言人表示,伴随极端视频展示的广告不到广告主总展示次数的千分之一。谷歌全球销售与运营副总裁菲利普·辛德勒(Philipp Schindler)也称广告问题只涉及到非常非常小的一部分视频。但广告评级员透露谷歌正通过加大人工评级员队伍建设来防治问题恶化。

广告收入占到谷歌总收入的九成,因此找到问题视频,杜绝广告丑闻显得尤为关键。但每天有将近 60 万小时的新视频被上传到 Youtube,需要一个城市的人口全天候观看才能保证完全的人工审查。这显然不现实。谷歌称正在努力开发用人工智能来帮助识别问题视频。“这一问题无法用人力解决,也不应该由人力解决。”辛德勒在最近接受彭博社采访时说。

问题是,AI 的训练离不开人工。因此,谷歌在现阶段仍然依赖人工分级来识别并标记令人反感的视频,从而构建数据库用于 AI 学习。八名现职和前评级员对《连线》杂志表示谷歌一度变得越来越依赖人工评级员的工作,与谷歌公司沟通不足以及工作缺乏稳定性都损害了他们做好自己工作的能力。

  人工评级

科技企业一直以来都有雇佣内容管理员的传统。随着人们在网上上传和分享的内容越来越多,这一职位对互联网巨头而言也变得越来越重要。《连线》采访到的评级员表示,除了对视频进行审查,他们还会检视评论区,标记言辞粗鲁的互动留言。评级员们检查谷歌广告网络涵盖的各种网站,以确保他们符合公司的质量标准。他们按类别(比如“零售”或“新闻”)给网站分类,然后点击页面广告中的链接,看其是否运行正常。而且,正如“广告质量评级员”这一名称所示,他们还对广告本身的质量进行评级。

在三月份的广告丑闻招致客户抵制之后,谷歌要求评级员们暂缓其他工作,集中人手处理“高优先级评级项目”。这一新项目意味着几乎完全专注于 Youtube 上,根据客户投诉检查视频乃至整个播放列表。“这是一个巨大转变。”一位广告评级员说。

评级员表示庞大的工作量意味着数量和速度被放到比精确度更优先度位置。某些情况下,系统会要求在不到两分钟内审查完几小时长度的视频。不堪重负的评级者们纷纷在匿名论坛上交流各种增效法门。比如查看 Rap MV 的歌词以快速检索亵渎词语,或以 10s 快进速览全片。谷歌使用计时器监督每个视频的审查时间,这也增加了评级员的压力。“我担心如果我一下子审查太多视频,会被解雇。”一位评级员告诉《连线》杂志。

除了简单标记视频良莠,评级员还被要求对视频标题和内容做更细致的评级,并进行分类,例如包含“亵渎”、“仇恨言论”或“其他”等“不适当言论”。又或包含“恐怖主义”、“战争与冲突”、“死亡悲剧”或“其他”等“暴力”内容。此外的分类还有“毒品”和“性/裸露”(具体分类为“虐待”、“裸体”和“其他”)。系统还为评级员提供了“其他敏感内容”选项,宣扬极端政治观点的视频即可归为此类。(AdAge 最近报道称,谷歌现在允许客户拒绝在“性暗示”和“耸人听闻”的视频上投放广告。)

不过评级员表示,并非所有的材料都能被恰当地分门别类。在这种时候,评级者就将视频标注为“无法评级”。比如一名评级员因不懂西班牙语而将一段西语 Rap 标为“无法评级”,不过他同时尽责地附上一句评论,表示对话内容有可能带有侮辱性。(最近的评级员招募显示,谷歌正在优先聘用双语应聘者。并在评级系统中提供“未知语言”的选项。)

多位评级员表示他们被要求观看令人震惊的视频。一位评级员谈到一个男人在卡车里杀狗的视频,视频中的人将卡车点燃,然后走出卡车朝自己脑袋开了一枪。在评级员论坛上,还有更多耸人听闻的视频内容,包括虐待妇女、儿童和动物的视频。有人表示他们每看几个视频就得休息一下才能缓过劲儿来。评级员无从得知谷歌如何分发每个人的任务内容,每个人都是在评级之前才能看到视频的标题和缩略图。其他一些评级员经常看到的视频还包括谈论电子游戏、政治和阴谋论的视频。

总而言之,极尽其详的工作范围和分级的微妙差别都显示谷歌仍然需要人工协助来处理 Youtube 的广告问题。“我们的信息来源众多,但你们是我们最重要的来源之一。”谷歌在给评级员的文件中如此说道。谷歌高管和代表多次强调只有机器智能才能解决 Youtube 这种规模的问题,但在谷歌实现真正实用的机器算法之前,这些工作仍然依赖人工完成。

“我们一直依靠技术和人工评级的结合来分析被标记给我们的内容,因为对视频内容的理解可能因人而异。”谷歌发言人 Chi Hea Cho 说。“近来,我们增加了人手来加速评级工作。人工评级帮助训练我们的算法,使之随时间推移而不断改进。”

  人力资源

人工广告评级员项目始于 2004 年,效仿谷歌搜索引擎的搜索质量改进项目而设立。广告评级最初服务于谷歌的核心广告业务:AdWords。AdWords 负责生成与用户搜索结果和 AdSense 相匹配的广告。AdSense 是谷歌面向网站站长的广告服务,让客户在第三方网站上投放广告。最初代理招聘的机构 ABE 支付给广告评级员每小时 20 美元的薪酬。评级员可以一天干 8 小时,还可以加班赚钱。2006 年,WorkForceLogic 收购了 ABE 之后,有评级员表示工作待遇略有下降。之后另一家名叫 ZeroChaos 的公司在 2012 年吞并了 WorkForceLogic,如今所有的广告评级员都归 ZeroChaos 管理。

没有时间限制的广告评级工作对那些喜欢灵活工作条件的人群很有吸引力,其中包括刚开始工作的大学毕业生、退休工、闲居的老人和残障人士。评级员只需要一台台式电脑和移动设备就可随时随地进行工作,每周最低工时不得低于 10 小时。

但这份工作本质上的不稳定性可能会给许多从业者带来风险。“我们大多数人都喜欢这份工作,但我们没有机会成为永久的全职员工。”一位广告评级员告诉《连线》杂志。

ZeroChaos 是数家专门向科技企业提供临时工的机构之一,《连线》所采访到的员工便来自于它。ZeroChaos 以一年期合同签员工,连续工作两年后不得留职。(今年 4 月,ZeroChaos 已经废除了最长两年的连续雇佣期限。)评级员待遇没有指望得到提升,永远都是 15 美元的时薪。每周工时上限为 29 个小时,无带薪休假。每周工作超过 25 小时的员工可申请公司福利,但另一方面公司又无法保证有足够多的任务让他们干满这么长时间。公司经常毫无预兆地突然终止合同,没有事先警告也没有解雇理由。有员工才入职一周便收到解雇邮件。

“谷歌努力与提供良好工作条件的供应商合作。”Cho 说。“当问题引起我们的注意时,我们会就员工的忧虑向供应商提出警告,并同他们合作解决任何问题。我们会进一步研究这个问题。” ZeroChaos 则拒绝就此置评。

评级员称与谷歌缺乏沟通加剧了评级员的工作不安全感。评级员们无缘得见他们所服务的幕后雇主,即便在面试环节也是如此。谷歌会向“谷歌广告评级管理小组”发送例行邮件,告之评级员仅将其用于与任务相关的问题。员工发往谷歌邮箱的邮件只会收到自动回复。“由于收到的报告数量庞大,管理员不会回复单独的问题报告。不过我们对收到的报告进行监控,以尽快发现系统级别的问题。”谷歌回复道。“如果您需要个性化的回复,或对你的账户采取特定行动,请联系您的合同管理员。”

“来自谷歌的交流完全不存在。”一位前评级员说。“谷歌是出了名的难沟通。”

“位于网络另一头的山景城的人就像幕后的巫师。我们非常希望与他们沟通,成为真正的同事,但不可能。”另一位评级员说。

另一方面,谷歌只是通知评级员他们在做重要工作,此外便没有更详细说明。

“我们无法对每个任务的目的都作出解释,但这些任务对我们而言的重要性是毋庸置疑的。”谷歌在给评级员们的培训材料中说。“你不会经常能听到你工作的结果。实际上,有时你的工作看起来可能仿佛一个黑洞……不过即便你不总是能看到工作的成效,你的工作确实非常重要,并且许多谷歌员工会十分十分密切地检查它。”

有时候这些检查也会密切地让评级员吃不消。谷歌会将评级员审查过的材料伪装成未分级材料,分配给评级员进二次审查,以衡量其绩效。“我们用测试来评估你的表现。分数过低可能导致您的任务终止。”

根据佐治亚理工大学研究员马克·里德尔(Mark Riedl)的说法,将已知问题经过伪装“明知故问”是众包研究中的常见做法。研究人员通过这种手段排除那些不负责任的蒙混过关者或机器作弊行为。这种做法经常被戏称为图灵测试。

里德尔认为在真人团体中使用这种手法存在不妥:“工人不是机器。我们需要认识到那些员工是人类,我们有伦理和道德责任来设计任务以尊重工作者的尊严。”

同时也需要指出的是并非所有评级员都对待遇心有不满。15 美元的时薪仍然比大多数城市的最低工资要高。一位员工感谢 ZeroChaos 给他工作的机会,此前他曾因犯罪前科被麦当劳拒聘。许多评级员在穷困潦倒接近无家可归,要靠食品补助券度日的时候得到这份工作,并对此心存感激。

其他人表示,评级员工作的灵活性并不意味着能被充分利用。随时随地在家工作确实是极大的便利,但 ZeroChaos FAQ 禁止员工同时为其他公司工作。一名前评级员希望在从事当前工作的业余时间重拾广告评审的工作补贴家用,却被 ZeroChaos 拒绝。“如果我可以同时做两份工作,收入会很可观。现在我每周比失业阶段多挣 40 美元,不过这是不可持续的。”

  人机关系

《连线》杂志采访到的广告评级员表示,雇佣临时工来承担培训 AI 系统所需的重复性任务,是整个科技行业的大公司都在采用的做法。一位评级员讲述了早些年自己参与微软 Bing 搜索引擎的评估工作,当时的人工评审员需要每小时浏览多达 80 多页的搜索结果。评级人员透露,LinkedIn(数据注解)和 Facebook(评估粉丝页面赞助商的帖子)也雇佣临时工进行类似的任务。

(微软拒绝对此置评。LinkedIn 无法确认存在此类项目,Facebook 没有回复置评请求。)

评级员工作整体的不稳定性和普遍的非自愿解雇现象让许多现职和离职工人感到不满,他们表示自己工作的不稳定性也会让谷歌等幕后雇主失去熟练员工的积累。“他们白花时间训练新员工,然后又赶他们出门。”一位前雇员说。

不过,对科技公司而言,不断使用新的临时工做人工评估反而可能是提升 AI 智能的最佳做法。AI 专家称定期更换人工数据来源更适合培训 AI。“AI 需要众多观察事情的角度,特别是在引人反感的内容等方面。”人工智能创业公司 Nara Logics CEO  亚娜·艾格斯(Jana Eggers)说。她还引用最高法院和色情的著名故事。联邦法官称自己不知道如何界定色情,但“让我看一眼我就知道了”(I know it when I see it)。同理,给机器更多的视角会得到更好的结果。

尽管 AI 研究人员普遍认为,训练人员的不良习气不会随着训练数据一同传染给 AI。但工作环境和个人经验之外,一些更微妙的影响实难控制。“人们经常听到的观点讲大量不同的数据是培训 AI 模型的途径。”康奈尔大学 AI 教授巴特·塞尔曼(Bart Selman)说。“这是一个很好的指导方针,但当涉及道德判断时,群体中根深蒂固的偏见也是需要注意的。”例如,人们往往认为男人比女人更能胜任某些工作(或相反)。“如果使用来自一个特定群体的数据来训练 AI,人群中隐藏的偏见也会一并被 AI 习得。”同理,使用一群焦虑的临时工来训练 AI,临时工特有的偏见也可能被吸收到系统中。

“你不会想通过让机器观察普通人在日常生活中的做法来训练 AI 伦理模块。”塞尔曼说。“你想从那些对偏见和伦理问题有更深入思考的人身上获得数据。”

谷歌山景城总部以待遇优越著称,风景如画的园区内设免费自助餐厅,游泳池和桌球室也是应有尽有。这与广告评级员的境遇形成鲜明对比。不无讽刺的是,在如今这个时代,为世界上最具价值的科技企业工作可能意味着豪华福利和天价工资,也可能意味着作为招之即来挥之即去的临时工,从事千篇一律的工作,工作的意义只是培训公司的机器取代自己。

内容加载中