日报

人工智能打击网络语言暴力,“谩骂党”的末日即将来临?

端传媒记者 纪小城 综合报导

刊登于 2017-03-29

在线讨论已成为人们互联网经验的一部分。令人遗憾的是,在人们畅所欲言的同时,很多包含个人攻击的内容也大行其道。根据美国民调机构皮尤研究中心(Pew Research Center)2014年的一份调查报告,73%的成人网民见到过网上言论攻击行为,40%的人更曾亲身经历。许多网络平台努力尝试通过人工干预来限制语言暴力,然而面对亿万名发言者,平台需要出动大量人力,却仍应接不暇。

如何用ai对付网络人身攻击。
机器学习技术被用来对付网络人身攻击。

随着人工智能(AI)兴起,一些平台开始寻求更加高效的技术手段来解决这一难题。英文维基百科(Wikipedia)就与 Google 联手,开发了一套机器学习算法,来找出包含侮辱性的言论。

根据研究论文显示,研究者首先收集由10人选出的10万条侮辱性评论,训练算法明确人身攻击的语言方式。算法不仅需要区分出直接人身攻击(如“你是混蛋”)、第三方人身攻击(如“张三是混蛋”)和间接人身攻击(如“张三说李四是混蛋”),还要分辨出哪些是“谩骂党”,哪些是被对方谩骂激怒后开始反击。通过这套算法,研究者分析了维基百科2004至2015年间页面文章的6300万条评论,判定哪些留言包含语言暴力。

研究分析发现,近80%的人身攻击来自9000多名用户,每人的攻击性评论不超过5条,往往是被激怒后忘形反击;另有34名用户承包了9%的攻击性评论,每人超过20条,他们属于网络中的“谩骂党”,以挑衅、宣泄为乐。因此,虽然大量攻击性言论散布在低频攻击者中,但若有针对性地限制高频攻击者,也会令状况大为改善。

对于在线交流而言,很少有比侮辱、威胁、骚扰的语言毒害更大的。我们正在研究如何令电脑学会理解大规模侮辱性语言的细微差别和语境。如果成功,可以帮助发言者和版主改进网络平台的评论内容,增进网上的思想交流。

Conversation AI 项目介绍

维基百科的这一研究项目名为 Detox(脱毒),是 Conversation AI 项目的一部分,来自 Google 母公司 Alphbet 旗下的科技孵化公司 Jigsaw。论文的3名作者中,除了维基百科的数据科学家 Ellery Wulczyn,另外两人 Nithum Thain 和 Lucas Dixon 均来自 Jigsaw。

Jigsaw 的前身是2011年由 Jared Cohen 与时任 Google CEO 的 Eric Schmidt 共同发起的智库 Google Ideas。2016年2月 Google Ideas 扩展为 Jigsaw 后,Schmidt 在 Medium 上宣称,Jigsaw 的使命是“使用技术来解决最棘手的地缘政治问题,从打击暴力极端主义到遏制在线审查,减轻由数字攻击引起的威胁”。

Conversation AI 只是 Jigsaw 众多计划中的一个。Jigsaw 制作的第一款产品是翻墙工具 uProxy,目前已在超过100个国家发行。通过连接防火墙外的朋友的电脑,uProxy 可以帮助面临互联网审查的用户翻出防火墙。

Uproxy。
翻墙工具 uProxy。

Jigsaw 的另一款产品是 Chrome 插件“密码警示”(Password Alert),该插件不仅能侦测假冒的 Google 登入页面并弹出提醒,也会在异地登录时向用户传送通知,以防账户被盗。

2016年4月,Jigsaw 还曾推出一款叫做 Montage 的软件,通过分析 YouTube 视频,帮助战地记者和非营利机构追踪发生冲突的地区和搜集侵犯人权的证据。另一款名叫 Project Shield 的免费软件则能帮助防范针对媒体、选举监督网站和人权组织的网络攻击。

机器学习

Machine Learning,是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及大量统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜寻引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA 序列测序、语音和手写识别、战略游戏和机器人等领域。(资料来自维基百科,百科内容以 CC BY-SA 3.0 授权)

来源:IBTimesMotherboardMediumWired

本刊载内容版权为端传媒或相关单位所有,未经端传媒编辑部授权,请勿转载或复制,否则即为侵权。

延伸阅读