游客

如何揪出网上喷子?维基百科联合谷歌开发机器学习算法

游客 2017-02-16 10:35:34    200854 次浏览
如何揪出网上喷子?维基百科联合谷歌开发机器学习算法

最近,来自维基百科和的IT专家,公布了把AI用于“节制”维基百科用户评论的成果——找出哪些用户在搞人身攻击,还有他们为什么要在网上骂街。针对该问题,研究人员开发机器学习算法,分析维基百科在2015年收到的的海量评论。这一年,维基百科讨论页面共收到6300万条评论。这些评论存在的本意,是讨论如何改进维基百科收录的各条文章。

这些算法使用10万条包含侮辱性言辞的评论以进行训练,当然,这样的样本规模只能算是偏小的。起初,十名人类员工对这些评论进行分类,以明确用户评论中都出现了哪些人身攻击语言方式。举个例子,该机器学习算法能区别直接人身攻击(比如“你是个XX”),第三方人身攻击(张三是个XX),以及间接人身攻击(“张三说李四是XX”)

研究成果以论文形式发表出来,题目为'Ex Machina: Personal Attacks Seen at Scale'(Ex Machina:大规模人身攻击)。该论文将在四月份澳大利亚珀斯举行的的世界互联网大会上展出。

34名用户“贡献”了9%的网上谩骂

如何揪出网上喷子?维基百科联合谷歌开发机器学习算法

横坐标轴:总发帖数;竖轴:侮辱性言论比值;黑色:匿名用户;蓝色:注册用户

如上图,匿名用户发布人身攻击言论的概率,比注册用户高六倍。但发表最多侮辱性言论的,却是一小撮活跃注册用户。

该分析表明,维基百科43%的发表言论来自匿名用户。这些人中的绝大部分并不经常发帖,有的就只发过一次。但平均发表脏话概率比注册用户高六倍。但据雷锋网了解,维基百科注册用户比匿名评论用户多20倍,意味着超过半数的人身攻击言论仍是注册用户发表的。

研究人员发现,大多数情况下用户言论是得体的。80%的人身攻击来自于9000多名用户,而这一群体发侮辱性帖子的平均次数少于五次。意味着大多数人只在被激怒后,才开始在网上骂街。

但是,有一个包含34名活跃用户的小群体。研究人员对该群体的打分是“危害指数超过20”。这34个人竟然贡献了维基百科全部侮辱性言论的近十分之一,准确来说,是9%。

很明显,这些人就是网络世界里所谓的“骂街党”——那些喜欢上网和人骂战,把人身攻击作为日常宣泄、娱乐活动的人。现在的好消息是,新的机器学习算法使得维基百科在用户群中找出这些人变得更加容易,然后只需要把这几个人的账户封掉,就能一下子减少论坛上9%的恶意言论。太划算了,是不是?这意味着偶尔发表人身攻击言论的普通用户不必被封号——大多数只在和人吵起来之后才开骂。这还意味着,维基百科不需要像拉网一样把全部评论筛一遍,用机器学习检测侮辱性言辞,而只需把精力放在管理这些极少数的骂街党上。

论坛维护:人 AI

如何揪出网上喷子?维基百科联合谷歌开发机器学习算法

网上骂战,有时像野火一样被瞬时点着。正因如此,相比能自动决定该屏蔽哪个论坛用户的计算机程序,有时候人类管理员更有用。

论文作者们在结论中说道:“这些结果说明,围绕着人身攻击行为的一系列问题并不好解决。但我们的研究证实,目前只有不到五分之一的人身攻击行为,会触发维基百科违规程序。”

未来,AI大概会在网站评论管理中起到越来越大的作用。研究人员指出,能自动筛选评论的系统可发挥极大的辅助作用——人类管理员能更清晰地把握用户谈话的健康状况,并可以更快得发现“有毒”评论内容,在引发更多用户反感之前采取措施。

内容加载中