雅虎的研究人员近日发表了一个通过机器学习和自然语言处理技术识别网络语言暴力的技术。网络语言暴力最近一直为人们所关注,这一问题可能导致人们逃离 Twitter 和 Yahoo 这样的平台,甚至可能伤害到整个虚拟经济。
大多数平台通过用户举报、关键词屏蔽或人工审核等方式来处理这类问题,但是简单的拼写处理就会使屏蔽黑名单失效,例如“Kill yrslef a$$hole”这样的表达,而且一些嘲笑和讥讽的语言可能完全不用脏字,这些都为利用人工智能解决这一问题造成了挑战。
雅虎的研究人员以一些 Yahoo! Finance 和 Yahoo! News 中被标记的暴力语言作为数据库,虽然感觉上这应该是两个比较纯净的产品,但事实上通过人工的审核,Yahoo! Finance 上7% 的评论和 Yahoo! News 上 16.4% 的评论被认为是暴力语言。
雅虎的算法通过不断识别暴力语言中字母之间的关系来自我学习,这可以使其解决不规则的拼写问题。算法还会参考语句长度、大写字母应用、标点符号这些语法因素,甚至一些涉及相关性的高级语法特征也被考虑了进去。
算法会将其判断结果不断和人工的结果进行比对,研究人员发现,目前的系统较之前的方法有了实质性的提升,最好的情况下,机器的结果可以达到与人工结果有 90% 的重合度。
有趣的是,机器的自我学习在不断增加新数据的情况下最有效,这也反映了网络语言暴力的易变性。虽然理论上更大规模的数据会带来更好的结果,但是即使使用一个很小但是很新的数据库,也能得到一个很精确的结果,从效率的角度这是一个很重要的发现。
研究人员表示,他们很快会通过雅虎 Webscope 公布他们的数据库,不过遗憾的是,这一数据库只可以用于非商业用途的研究,也就是说对于雅虎的新主人来说,未来这项技术可能是一个值钱的资产。