徐子轩：AI预测犯罪，谁会成为人工智能的眼中钉？

十多年前，好莱坞名导史匹堡（史匹柏，斯皮尔伯格）翻拍了1950年代的科幻小说，电影叫做《关键报告》（Minority Report，港译“未来报告”，中国大陆译“少数派报告”），内容是描述未来某国政府利用变异人类的超能力，预测潜在犯罪（pre-crime），以便司法系统提前阻止。因此，这样的社会没有重大罪行，只有充满“潜在罪犯”的拘留营，一切看似安和乐利。

这类电影寓言凸显长久以来，人类虽想预测犯罪，却弄巧成拙的荒谬。如今现实生活中，许多国家面对层出不穷的犯罪问题，正在使用或引入属于它们的“少数报告”。不过，它们依靠的并非是超能力人类，而是人工智慧（AI）。

由于AI的兴起，给了学者专家突破的机会，尝试统合犯罪学、人口学、地震学等学科，以及浩瀚无垠的案件资料，让机器进行深度学习，找出人类无法预见的部分。

事实上，在我们的生活里，已经充满著监视器与人脸辨识系统，警务机关可借由AI筛选“危险人物”。这跟AI预测犯罪有何不同？使用AI预测背后，又是否会产生一些AI与人类无法处理的问题？

如何预测犯罪？

综合目前AI预测犯罪的类型大致可分为两种。一种是预测犯罪热点，像是ShotSpotter公司开发的枪声感测器网路系统：感测器网路分布于城市内，据称能精确侦测到10英尺左右的枪击位置，还能即时有效地提供警方关于枪械的信息。与传统网路不同的是，他们可以测量到各种武器的脉冲声音，包括爆炸，因此被称为是广泛性的防护系统。

还有像是Predpol公司研发的传染型余震序列（Epidemic Type Aftershock Sequence，简称ETAS，借用地震学概念）模式，透过分析旧资料，号称可预测未来犯罪最有可能发生的时间和地点，亦即在地图系统内标识出犯罪热点。采用此系统的警方，会锁定热点增派巡逻，以期阻止潜在犯罪。

另一种则是预测犯罪嫌疑人，例如Northpointe公司的替代性惩处受刑人管理剖析量表（Correctional Offender Management Profiling for Alternative Sanctions简称 COMPAS），这是针对受刑人的侧写评估。通过测量社会经济地位、家庭背景、就业状况等因素，预测个人未来犯罪风险的可能性。此量表计算出的分数会提供给法官，判断是否适合保释，以及衡量刑期。

又如英国剑桥大学犯罪学研究所教授设计的危害评估风险工具（Harm Assessment Risk Tool 简称HART），旨在预测违法者在未来两年内犯罪的风险等级。与COMPAS不同的是，它不会涉及判断违法者是否应该被拘留，而是帮助警方挑选低风险者进入名为“检查点”（Checkpoint）的计划。违法者只要符合该计划的条件，就可以免去起诉等司法程序。

近来则有美国南加大研究团队针对极端主义组织所架构的预测模型，同样适用于帮派犯罪。它们使用神经网路（Neural Networks）计算系统，企图识别犯罪嫌疑人与犯罪组织的关联。据该团队说，只要按照嫌疑人的数量、使用的武器以及犯罪发生地等条件，便能找出嫌疑人是否隶属于某个帮派，进而协助警方办案或是法庭定罪。

此外还有其余多种技术方法。

由于绝大多数地方都面临人手资源不足、办案时间紧迫等压力，如果有超越人类的助力，便可以减去许多麻烦；但对警方来说，这类的AI可能会让他们过于依赖计算器生成的决策、降低员警的责任感。

AI预测真的有用吗？

全球最广泛熟练使用此等技术的当属美国。目前纽约、洛杉矶、亚特兰大和芝加哥等城市的员警部门，都有引进ETAS这类型的预测性警务软体，或是架设ShotSpotter的感测器网路，COMPAS更是几乎遍布全美五十州。

就效果而言，某些使用AI预测的城市犯罪率确有下降，如去年芝加哥的谋杀事件下降16％、枪击事件下降22％；洛杉矶警方发现，若巡逻使用ETAS，犯罪率平均减少7.4％；唯一测试HART的英国杜伦（Durham）警方声称，若与结果比较，该技术预测低风险犯罪嫌疑人的准确度可达98%、高风险准确度也有88%。

虽然有了具体成绩，不过由于犯罪的成因甚为复杂，使用AI预测受到不少质疑。以ETAS为例，有论者指出这种演算法与执法部门多年来使用的“犯罪热点地图”并无太大区别。这是因为演算法不会凭空产生，PredPol也是将过去数十年累积的犯罪资料汇集在一起，再用程序设计叠加出犯罪高风险区域。

换言之，ETAS始终是前人智慧——即当地警方纪录——的结晶。从这些报告中学习的AI，真正预测的不是未来，而是警方下一次值得巡逻与侦查的地方。因此执法人员会被反复地派遣到某些早被盯上的社区，却忽略社区的实际犯罪率与潜在犯罪率之间的差别。

犯罪的历史资料也可能会引发回馈回圈（feedback loop）的问题。美国犹他大学的研究人员指出，ETAS的运算逻辑会把警方派到特定社区，尤其是少数族裔聚集之处。派遣的警力越多，被逮捕的人也会越多，然后下一次就会再增派更多警力，某些社区当然就难以脱离犯罪热点，形成恶性循环。

由于绝大多数地方都面临人手资源不足、办案时间紧迫等压力，如果有超越人类的助力，便可以减去许多麻烦；但对警方来说，这类的AI可能会让他们过于依赖计算器生成的决策、降低员警的责任感。更重要的是，一旦出现问题，AI不啻是卸责的好借口，让警方有足够的理由为涉及乱纪的行为辩护。

再以HART为例，这种演算法据说涵盖了34种不同类别的资料。包括个人的年龄、性别和犯罪历史等，引来批评最多的则是邮政区号。邮递区号与个人住所相关，因此会使某些社区受到警方更多关注。
如果警方对高风险邮递区号的区域预测做出回应，可能导致放大现有犯罪的结果。

这种演算法还会牵涉社区剥夺（community deprivation）的概念，也就是说，有些社区的经济条件比较差，社区居民缺失政治权力或与社会正常的互动，却变成AI思考嫌疑人是否再犯的因素之一，等于是对贫穷的人们施加额外且不平等的惩罚。

COMPAS的批评

此外，受到最多挑战的，是使用最广泛的COMPAS。由于COMPAS的演算法并未公开，遂变成诉讼攻防的一环。2013年美国威斯康星州法庭对驾驶赃车且企图逃逸的被告Eric Loomis进行判决，法官审酌COMPAS给出的分数，判处Loomis六年监禁。Loomis的律师不服，认为违反了被告的正当程序权利，因为COMPAS阻止被告挑战此类科学评估的有效性，因此上诉到最高法院。

然而上诉遭到驳回，最高法院不认为采用COMPAS是秘密而不透明的审判流程，因为评估的方法既未向判决庭也未向被告披露。另外，最高法院认为LoomisCOMPAS信息来源乃是被告提供与公开的资料，故而断定使用COMPAS并不违法，且判决庭对信息有自由裁量权，强化了COMPAS的正当性。

但是，去年ProPublica网站的记者们做了实验，检视COMPAS 分类的两种被告（普通累犯和暴力累犯）。他们以佛罗里达州布劳沃德县的一万多名刑事被告为标的，将这些人被预测的“再犯率”与“两年内实际发生率”进行比较，结果发现预测普通累犯的准确度约为六成，而暴力累犯只有两成。

此外，COMPAS的演算法不包括种族，但COMPAS赋予不同肤色被告的风险评分（1~10分，最高风险为10分）比率，与实际再犯率之间有著惊人的误差。要强调的是，这里的肤色被告评分的分组，是ProPublica记者们自己采用被告资料做出的结果。

就普通累犯来看，被评为低风险的非裔美国人被告，实际上再犯的比例约为28%，白人约为48%。也就是说，若以肤色检视预测结果，便可以看出误差。COMPASS格外容易将非裔美国人被告视为未来的罪犯，白人被告则相反。

这样的结论毫无意外地引来了Northpointe公司的反击，以COMPAS量表上获得7分的被告为例，60％的白人会再犯罪，这与非裔美国人的61%几乎完全相同。

一些专家也加入讨论，有的认为ProPublica记者的报告是基于错误的统计资料和分析，有的则指出两方的论战其实是对于公平定义的歧见。

重点是，COMPAS对于累犯的风险预测并未考虑肤色种族，那么为什么还会出现评分误差呢？这是因为在佛州当地，非裔美国人被告的整体再犯率高于白人被告，约52％对39％（与美国全国平均相等）。越多的非裔美国人被逮捕，会让演算法判断具有相似条件的人再犯比率更高，自然越容易给予高风险评比。

由于非裔美国人社区的警务较重，或警方在决定逮捕时存在偏见，因此非裔美国人可能比犯同样罪行的白人更常被捕。这显示COMPAS受限于执法单位对于公共安全的权衡。

对于这种“变相的”歧视，许多公民团体都强烈批评执法单位利用AI便宜行事，短期或者可压低犯罪率，但长期来看，预防犯罪的边际效益必然递减。

阻止AI学会歧视

为了避免这些情形加剧、也为了保障数字时代的人权，公民团体展开与警方的法律战。像是去年在芝加哥，一群记者对当地警方的犯罪热榜（heat list）提起诉讼，要求公开热榜搜集哪些资料与使用方式，洛杉矶、纽奥良、纽约等城市也都有类似的官司正在审理当中。

无论这些判决结果为何，都不能完全否定AI对执法单位的作用。但不可讳言的是，犯罪预测已到了必须重新检讨的时刻：演算法所采用的许多资料参杂著警务和司法系统的既有观点，而这些AI的预测结果将反过来加深执法人员的偏见。

换言之，真正的问题出在教导AI的人类。要创造公平且有益于每个人的AI，则需要在系统运作、甚至是在程序设计与导入资料前做更多的事。这意味著“透明性”的重要，仅仅因为采用电脑与大数据就声称演算法不具偏见、或是官方背书，都不足够，必须评估演算法的前因后果以资证明。

诚然，AI公司可能会以商业机密、司法单位可能会以个人隐私拒绝公开，像是前述芝加哥警方为了保护执法者与线人等安全，坚不透露热榜信息。不过，这并不是不可解的问题，最适合的方式莫过于协力厂商审查，即引入外部专家来检视演算法，并在代码本身或者资料中寻找偏见的迹象，又可减少资料外泄的危险。

另外，由于每个人都会有明显与隐含的偏见，因此AI公司可以为打造AI的技术人员提供一些特殊培训，例如道德、法律等课程，以便他们能够更好地检测自己。

值得注意的是，今年达特茅斯学院电脑科学系研究室的两位人员，也针对COMPAS的预测结果做了新分析，结果得出COMPAS在预测再犯风险方面并不比从网路上招募的随机志愿者更好：个人志愿者能达到63％的准确率，团体志愿者则上升到67％，相较之下，COMPAS的准确度为65％。

比起COMPAS采用上百个问题衡量再犯风险，两位研究员只用了七个，包括年龄、性别与先前犯罪纪录等。然而这不一定代表COMPAS出了问题，而是可能暗示著预测犯罪的AI已经达到复杂程度的上限。

直觉上，我们会认为信息越多、越有利于判断，但上述研究却显示，简单的规则也可以带来品质不逊于AI的风险评估。

以预防代替预测

随著深度学习的进化，AI预测犯罪的准确度或许能逐步提升，但实际上可能无法预防犯罪。知道何时可能发生犯罪，与解决犯罪问题其实是两回事。对比美国一些预测犯罪的做法，加拿大有另一套逻辑，多伦多警方没有加强巡逻，而是使用预测模型将社区居民与社会服务联系起来。

加拿大政府希望利用数据建立更安全的社区，因为真正能减少犯罪的策略，应是让有可能成为再犯者或即将铤而走险的边缘人，获得社会服务和就业援助，而不是在已陷入困境的社区采取更严厉的打击。

进一步而言，预测犯罪不该只是司法部门的任务，公民社会也该加入政策运作。例如社区经营的公共空间可以用来克制犯罪、紧密频繁的社交活动有助于预防犯罪。针对累犯，特别是暴力犯的预测型监管措施，更需要在地社区的配合，如布署小型的康复中心，以在地化的角度协助累犯重新融入社会，亦保障社区安全。

说到底，人类既然决定以有别于以往的科技，创造一个更符合理想的社会，那么人的观念也必须与时俱进。如果只是单纯的用新方法解决老问题，只会加深既有的社会障碍。就现状观之，AI预测犯罪仍是人类大脑活动的扩展、仍在负面的刻板印象里挣扎，差别仅在于辨识准确度的增加。

没人知道未来AI会走到何种境界，但给拥有偏见的AI一把锤子时，或许多数人类在他看来就都像眼中钉。避免这种反噬，就是当代人的责任。

（徐子轩，LUCIO策略顾问总监，淡江大学国际事务与战略研究所博士）

本刊载内容版权为端传媒或相关单位所有，未经端传媒编辑部授权，请勿转载或拷贝，否则即为侵权。

评论区 5

评论为会员专属功能。立即登入或加入会员享受更多福利。

stulowski说道：

7年前

人工智能很不着调，各个领域预测模型都很容易出现偏见，ROC Curve看着都挺美，但一用就发现这也不对那也不对…… 加拿大那种使用方法是更合适的。
cheuk1cheuk1说道：

7年前

psychopass?
Screamm说道：

7年前

我们都在往前走。但是，哪边是前，哪边是后，我们也要时常反思，是否失了方向。
Joys_Lee说道：

7年前

记得有一个行为科学叫犯罪心理画像通过对犯罪现场的心理痕迹和物理痕迹进行对罪犯进行心理和生理的画像可惜当初没能通过一直作为辅助技术
一瀟说道：

7年前

科技無罪，但最終還是會被壞人用成少數派報告中的樣子