评论|傅景华:人工智能面前,是否人人平等?

平心而论,以收集大型数据配合自动处理系统为手段,把人进行社会分类为目的,再向各类型民众施以不同待遇,这些都并非中国首创。那么,要如何走出所谓是否“妖魔化”的讨论?
电脑跑出来的估算并不能孤立地称之为“中立”,当中呈现和强化既定的歧视。

笔者两周内一口气在欧洲跑了五个城市,披星带月的穿梭大小学院,开了五场以中国网络信息控制为题的讲座,由微博/微信的审查制度,谈到中国网络管理政策的全球性延伸,和应者众。演说引用的众多材料中,论台下听众反应最热烈者,当数触及有关中国“社会信用体系”的时侯,大家很不其然地想起西方媒体过去半年一连串以特定框架的报导——那种套入“21世纪化”欧威尔《一九八四》框架的视角;听众对这个威权社会运用人工智能进行社会操控和打压的课题,尤其是有关信用评分如何影响异见人士的日常生活、外地访客会否被打分等等问题,大感兴趣。

或许有人会指责这类是对中国存有偏见的“妖魔化”描述,没有考虑中国国情和体制不同,由于社会缺乏具公信的第三方信用机制,官商民间长年在没有互信基础下互动,所以才需要借用“客观”的大数据和人工智能来建立一套巨细无遗的信用系统,以制定指标供各方参考。

平心而论,以收集大型数据配合自动处理系统为手段,把人进行社会分类为目的,再向各类型民众施以不同待遇,这些都并非中国首创。美国政治学者Virginia Eubanks去年发表的Automating Inequality: How High-Tech Tools Profile, Police, and Punish the Poor一书中指出,美国不少州份早已将审批社会服务自动化,运用电脑运算技术取代由社工决定申请获批与否;新系统推出后曾令大批有需要使用医疗、生活津贴和食物券的美国人提交的申请被拒。还有另一个例子,2014缅因州州长为推行收紧公共援助的政策,利用大数据挖掘技术(data mining),查出部分生活津贴受益人在售卖烟酒商店设置的柜员机的提款纪录,及后高调公开资料,借此引导公众认为有人或滥用公共援助。

另一美国法律学者Andrew Guthrie Ferguson去年发表的书The Rise of Big Data Policing: Surveillance, Race, and the Future of Law Enforcement中亦指出,美国执法机构已经大量应用大数据和人工智能技术,透过挖掘人口资料和犯罪个案的历史数据,得出不同社区的犯罪风险评估,借此以数据估算应当在各个地方布设的警力。不过,这些历史数据本身已反映了现实世界的不公平和偏见,当警方布置更多的警力,破更多的罪案时,结果便推高当地犯罪率,形成恶性循环。所以,电脑跑出来的估算并不能孤立地称之为“中立”,当中呈现和强化既定(特别对有色人种)的歧视。

人工智能歧视,非数据量可解决

因此,要走出所谓是否“妖魔化”的讨论,当我们思考人工智能结合大数据技术进行社会分类(不论是中国式还是美国式)的影响时,除了要问究竟政府(或企业)收集和整合的数据是否侵犯了个人最基本的私隐,会否改变我们日常生活的秩序之外,我们还要问电脑是怎么透过运演算法(algorithm)跑出分析数据的结果,怎样去理解结果,与及结果是否呈现和强化对某些群体的不公平,会否出现人工智能的歧视?

试举一个例。如果政府推出反罪案政策,以一个超级GPU电脑用深度学习演算法,分析多年来各地所有犯案历史纪录的大数据,跑出高达99%准确率(accuracy)的估算模型(predictive model)。看上来非常完备,但若真的将之应用在估算未来的犯罪风险,这是否就合符公义?

我们不禁要问:

样本中有多少是罪犯,多少是好人?如果好人占了样本99.99%的话,算出的准确率是否误导?

如果99%估算是准确,那么余下错误的1%,会否集中在某些具特定特性的群体呢?换言之,当模型估算具某些特质的人时,会否特别容易出错呢?

究竟所谓99%估算准确是指什么呢?多少是成功预计到谁是坏人(true positive)?多少是成功区别没有犯罪的人(true negative)?

那么在这1%错误中,有多少结果是“好人当贼扮”(false negative),有多少是“坏人当好人”(false positive)?

以第一个问题为例,我们就会发现愈来愈难回答,尤其是当使用日趋复杂的脑神经网络或深度学习,制造出难以跟人类思考模式一致的估算模型,也回答不了任何有关“为什么”的问题,解释不到结果。无论结果是准确还是不准确,同样不容易了解,我们一般只能当它为一个“黑盒”,模型里卖什么药出来,没有简单方法找出导致结果的因素。

走笔至此,读Forbes最新专栏文章,作者就提出同样问题,质疑Facebook近日公布用演算法删除恐怖份子内容的结果,颇值大家一读。

许多人认为只要数据足够的大,就有代表性,便能消除偏见,但这样理解就大错特错。据一项研究结果显示,研究员分析Google News的内容,分析词汇跟词汇间的关连,发现有男性意思的词汇较大机会与工程师或科学家有关系,相反女性意思的词汇会特别大机会出现与护士或教师相关。换言之,若深度学习模型以Google News为培训样本的话,不论数据量有多大,训练出来的模型便“反映”了既定的性别偏见,进一步强化社会不公。

学界和专业界愈来愈重视这个问题,差不多成为研讨会必谈课题,但最低限度笔者还未见到有任何突破性的发展。欧洲议会去年发表一份报告,将演算法/人工智能放在人权的框架内讨论,提出了一连串的问题,是重要的发展方向,值得仔细讨论,在乌托邦派(人工智能改变世界?)和末世派(Big Data and Big Brother?)以外,为公众提供多一个视野。在中港台不断倡议智能城市的同时,有否停下来想一想,大家在塑造一个什么样的世界?

(傅景华,香港大学新闻及传媒研究中心副教授)

读者评论 5

会员专属评论功能升级中,稍后上线。加入会员可阅读全站内容,享受更多会员福利。
  1. @牆奴
    邏輯上不對
    假設一個警力可以破獲一個案件
    那麼就算AB兩個社區都有100個案件,但A社區有30警力, B社區只得20. 那麼相同情況下A社區仍是會比B高.
    何況以上例子一開始怖置警力時要參考過往數據,而該數據如果有偏見的話即由一開始已經產生問題. AI 本身是中立但仍可能會影響有

  2. 除非摆脱人类控制 成为神

  3. 除非人工智能的技術和控制權,被掌握在人人手裏,否則不可能人人平等。另外,如果一個社區被系統誤判,實際犯罪率並不高,那麼即使部署再多的警力,也不可能被破獲更多的罪案。而如果一個社區,總是有更多的罪案發生,那麼這個社區本身一定有問題,這並不是什麼偏見和歧視。

  4. 「無論結果是準確還是不準備」-錯字?

    1. 謝謝讀者指正,已修改。