广场

读者十论:“绝地求生”

“读者十论”栏目每周择选报导及圆桌话题中十条精彩读者留言刊出。

图:端传媒设计部

端传媒社群组

刊登于 2018-10-29

#读者十论

【编者按】“读者评论精选”栏目每周择选报导及圆桌话题中十条精彩读者留言刊出。部分留言可能会因应长度及语意清晰作节录或编辑。

1. 释放,回应《今时今日,谁来为“所有华人”说“黑猫中队”的故事?》

看到当年对峙的老兵老了后互相赠礼,真是感慨。在历史的大背景下的基层士兵只是可以消耗的工具,但脱离了战场和大环境赋予的敌对意识,一个个其实都是活生生的人。

2. 咸鱼姬,回应《运营资格被冻结后,全球最大游戏市场试图“绝地求生”》

分级问题已经是老生常谈了,从十几年前网络普及开始讨论至今,所谓分级制依旧十划都未有一撇。在12年以前,ACGN文化最兴盛的时代,分级制都没能提上日程,更勿论12年之后大家长上台,有的只会是恶名昭彰的杨永信们继续输出戒网瘾治不听话技术,各路官媒添油加醋呼天抢地控诉ACGN害人不浅,禁ACGN比禁烟积极十倍。

当年讨论分级制,网友提到一个词——自由裁量权。分级意味著界限分明,红线明确,这对创作者而言当然有好处,但这不是大家长所希望的。界限越模糊,表述越暧昧,自由裁量权才越大,掌权者才能最大限度地管控创作者。没有分级制,掌权者可以按需处罚,并且每一次处罚看上去都合乎法律,毕竟相关法律条文同样包罗万有,总有一条能把创作者关进笼子里。抄袭和盗版未必会把创作者逼上绝路,唯有审查和自由裁量权可以。

大家长会放弃控制欲吗?不会的,大家长最害怕的是有一天发现小孩不再完全按照他的思维去走。分级是不可能分级了,这辈子都不可能分级的。

另一方面,大家长在害怕失去控制权的同时,也在害怕失去游戏企业带来的税收。于是大家长灵光一闪,允许游戏企业制作面向海外市场的游戏,只能出口不能内销。说到底,大家长依旧是把ACGN当毒草,但把毒草卖给海外赚赚外国人的钱还是可以接受的,完了还觉得自己很聪明,并沾沾自喜。

说起来,可能很多人都不记得,大陆曾经禁止销售掌机了吧?时代其实一直没有变。

3. 痂铭,回应《跨域洋垃圾:全球经济、社会与空间的不均发展》

垃圾问题不单单是发达国家供给侧的问题。之前看到的一篇日文报导有提到早期中国商家能够给出两倍于日本商家的价格去收购资源类垃圾,久而久之日本国内的垃圾回收产业萎缩,对输出垃圾形成了一时难以改变的依赖。

4. 师机、micks,回应《很想买,但没信心:消费降级,一个即将抵达的目的地?》

师机:所以文中的个人例子只是更加论证降级为消费观念的变化,文中亦谈到了宏观数据与民间讨论趋向。人们更多是保守焦虑担忧,宏观经济数据对此有所反应。但事实上的消费降级按照作者列举的例子不足以说明会出现。也许消费会降级,而之前的图新奇虚荣过渡贪婪消费更加热潮减退,但最要命的是当下消费者正在酝酿的,无论上下不管当下消费如何,对长远未来越来越消极的信心与预期,这才是最终可能会造成事实消费降级的原因。

micks:其实之前的消费升级只是由于商品流通范围和种类迅速发展(代购,网购)背景下全社会的消费试误而已。当然也是互联网巨头为了推高股价的舆论导向下产生的一个term。现在的消费也是如此,否则想拼多多这些垃圾公司又怎么能骗投资人的钱上市,圆那些创办人的暴富梦?

5. FrankLiuPhD,回应圆桌话题《哈佛专家被查学术造假波及甚广,我们该用什么态度面对学术权威?》

首先需要强调的最基本的一点是,任何类型的学术造假(比如实验的基本设计选择,源头数据的收集过程,数据筛选过程,统计模型的选择,最后生成结果的修改以及阐述等)都是无法接受的。我仅在这里讨论没有学术造假的前提下,我们该如何去理解所谓的学术权威下的研究结果?由于这篇回复是一时兴起写成的,接下来分为多个角度的探讨并没有严格意义上的先后次序。有的论点长,有的短,但如果有不严谨需要补充的部分,请端友们一起探讨。

第一,绝大多数涉及到利用统计模型来完成验证的论文,都离不开所谓的“5%”统计显著性(statistical significance)。举一个不甚严谨但简单易懂的例子。比如说如果一个人想验证喝可乐是否会导致秃头,那么一个理想的情况是找来1000名各类体征相同(性别,年龄,身高,体重,种族,遗传史等等)的志愿者,其中500个人每天喝可乐,500个人每天不喝。实验反复进行一段时间后比较两组人群的脱发情况。由于两组人的本质区别在于是否喝可乐,如果最后喝可乐的那组人脱发比不喝的人脱发更多,那是不是能证明喝可乐导致秃头呢?这里就涉及到对统计结果的分析问题上。换句话说,我们不是简单的比较“是否”多还是少,而是比较如果脱发更多,多“多少”才能下这个结论。套用一句俗语,研究的世界没有非黑即白,只是关注于灰的程度而已。

那这个5%的统计显著性表示的是什么?它代表了我们想比较的两组人脱发的差异是由于一个具体的系统因素,而不是偶然因素的影响而产生的。如果我们想验证的是“喝可乐不影响脱发”,那这个5%可以理解为:在观察到的实验结果基础上,“喝可乐不影响脱发”的情况有5%的可能性。那如果选择的统计模型最后算出来的值(p-value)是3%,比5%小,那实验人员往往可以很自信的下这个结论:“喝可乐不影响脱发”的假设被拒绝(rejected)了。如果好事的媒体读到了这篇论文,那实验结果可能会被转述成:“可乐还是秀发?只能二选一!”

但如果这个可乐及脱发的实验统计结果算出来的值(p-value)是12%,比5%大,那该如何下结论呢?对于大部分的学术期刊来说,这个不显著的结果就是:“喝可乐不影响脱发”的假设不能被拒绝。换句话说,如果做实验的人是一心想证明“喝可乐导致脱发”,那看到这样的数字,心绝对凉了一大半。至少,从他们的角度来看,文章没有多大的卖点了。

可能看到这里,没有统计学背景的端友会问,为什么要以5%为标准做比较?这个数字为什么那么神奇?为什么在大多数情况下,比它小,就代表着能发表,比它大,就意味着要把实验结果束之高阁了?

这个5%最初来源于现代统计学之父,Sir Ronald A. Fisher于1926的一篇文章(见标注1)的一个“one in twenty”的说法。不排除在没有计算机的年代,1/20是一个比较好理解的百分比数字。这里要强调的是,他本人从来没有对这个所谓的5%念念不忘。至于为何后来的学者引用了这个数字,就不可而知了。

在这个第一点的讨论里,我们可以看到,学术界对所谓的一个特殊值(p-value)5%,以及衍生开来的所谓1%,10%,有着特殊的情感。因为它往往代表着论文是否能发表,科研课题是否可以继续,研究基金是否能再申请到的一个分水岭。

从这个角度,我们延伸开来讨论第二个话题,能不能在不进行学术造假的前提下,有什么办法得到一个能通过统计显著性的结果?一个简单的办法就是提高样本的数量。

再举一个例子。设想端的编辑部想测试是否应该在主页面上投入不同类型的动态广告,取代现有的静态广告,从而提高广告的点击率。假设端的用户有400万人,其中300万用户看的是以前的静态广告,100万用户看的是新的动态广告。在这其中:300万看静态广告的用户里,有13个人点开了广告;100万看动态广告的用户里,有10个人点开了广告。

这样的比较结果在统计上来说是显著的(比5%小的p-value)。也就是说,动态广告的点击率比静态广告的点击率更大。但是,这个比例的增加却没有什么实际上的具体意义,因为差别只有0.00057%。换句话说,如果仅仅只是想在现有的期刊框架上发表“动态的广告比静态的广告更能吸引用户的点击”上来说,这个结果是可以被接受的。但如果是端的编辑部花费了20万的专家咨询费得来的这个结果,那就没有什么必要了。

现在讨论的第三点,让我们回到端小二原文里的Anversa于2001年在《自然》上发表的造假论文:“研究团队还表示,他们在试验用鼠身上已证明可行。”

为什么要用老鼠?或者具体说,为什么现在用于癌症治疗的药物开发需要在老鼠身上做研究(注:Anversa的论文并未涉及癌症治疗)?用哥伦比亚大学肿瘤学家Azra Raza的话来说(见标注2),在癌症治疗的研究上,我们在老鼠身上观察到的结果往往并不适用在人身上。那为什么还要用老鼠呢?

因为太多的科学家和实验室花费了大量人力财力在“老鼠模型”上。当这群科学家作为同行审批彼此研究基金项目申请报告的时候,他们没有任何动力去否决“老鼠模型”,因为他们本身就是这个模型的受益者。

最后讨论第四点,如果我们把目光转到社会科学研究上(比如经济学,心理学),什么样的论文才值得信赖?或者说,什么样的研究设计下作出的结果才能真正接触到所要研究问题的本质? 这里一个非常关键的词就是随机对照试验(randomized controlled trial, RCT)。RCT在上述传统的医学研究,包括我在第一点里举的可乐及脱发的例子里,都是一个最基本的要求。可这并不代表这个方法论在社会科学研究里能被广泛运用。

为什么一定要强调随机对照呢?如果我们想要做出的结论涉及到因果关系(causality),比如喝可乐导致脱发,回复端的圆桌讨论导致失眠,那我们必须得在我们的观察样本中把相关性(correlation)和因果关系区分开来。举一个常见的例子。比如说夏天太阳大天气热,所以我们吃冰棍。但是夏天由于太阳大,我们也很容易被晒黑。所以说,吃冰棍的行为跟晒黑有正相关性,可我们不能论述说吃冰棍导致晒黑吧?

那在社会学研究里,为什么要强调随机对照呢?因为如果样本足够大,平均来说,治疗组(treatment group)和对照组(control group)的结果在理论上是没有区别的。如果有区别,那区别就是来自于“治疗”的方案(比如说前面提到的可乐,或者动态广告)。

在这里举一个非常有趣的研究。芝麻街(Sesame Street)是一个非常受欢迎的儿童节目,很多的研究都证明,从小看芝麻街能帮助提高学习能力。(注:最有名的一个例子是当今最全才的数学家陶哲轩 Terence Tao,他两岁的时候教其他五岁的小孩怎么拼写跟加法。大人问他哪里学来的。他说是看芝麻街电视上学来的。)

那作为一个严谨的学者,如何才能证明芝麻街节目确实能提高小孩子的学习能力呢?如果仅仅只是比较看芝麻街节目的小孩跟不看芝麻街节目的小孩,那比较出来的结果也不能排除“芝麻街更能吸引聪明的小孩”这一说法。Kerney and Levine(见标注3) 就找到了一个非常好的随机对照设定。首先,芝麻街是1969年才开始播放的,他们首先比较了1969年后一代的小孩跟前一代的小孩在学校里的表现。其次,由于电视转播技术的原因,在1970年左右住在南加州的人,由于转播信号弱,他们看不到芝麻街的节目。所以第二个随机比较就是,在1970年的时候,大约全国有1/3的小朋友看不到,2/3的小朋友看得到这个节目。那下一步就是比较这两组小朋友们的学习表现。

但是,在其他的社会学研究里,能找到随机对照试验的设定到底有多难呢?非常,非常的难。那如果研究的结果并不是来自于随机对照的设定呢?那怎么看待这个结果就见仁见智了。

希望端友们在看完以上的讨论,能对所谓的权威研究,有一个新的角度。

标注1: Ronald A Fisher, 1926, “The Arrangement of Field Experiments” Journal of the Ministry of Agriculture, 33, 504.

标注2: Azra Raza, 2014: “What Scientific Idea is Ready for Retirement?” https://www.edge.org/response-detail/25429

标注3: M. S. Kearney, P. B. Levine, 2016, “Early Childhood Education by MOOC: Lessons from Sesame Street”, NBER Working Paper https://www.nber.org/papers/w21229

6. anonym,回应圆桌话题《哈佛专家被查学术造假波及甚广,我们该用什么态度面对学术权威?》

亚里土多德去世后的数百年间,大多数学者都把他的世界观视为千真万确。只要他们能够证明亚里士多德说过的某件事,他们便会心满意足。这种现象有时被称为“权威确定真理”——因为某个“权威”人土说某件事是正确的,便相相信它必定正确。

7.brianeyes88677,回应圆桌话题《哈佛专家被查学术造假波及甚广,我们该用什么态度面对学术权威?》

昨天才跟导师讨论这件事。大家都一窝蜂的涌入做最热门的东西,因为才好发文章、引用率才高,导致整个科研圈子变得很焦躁、急功近利,很少有人静下心来好好思考基础问题。如果抱持著我做这个研究的目的是能发顶级期刊论文,那肯定会做不好科研的,做研究出于内心兴趣才是最重要吧。追逐热点确实能给你带来名利、升迁、评好教职,但那样的科研真的是你想要的吗?

近几年的机器学习和量子计算领域就是这样,所有人都在蹭热点追求发热门、高引用率的文章,心肌更是一堆人即便知道那明明是假的还继续做下去。世界撤稿前20名的科学家几乎都是中日韩学者,说明有多少人靠著造假拿到了博士学位、评上教授职、申请经费,虽然事后撤稿但借由肮脏手段取得的利益已经拿到手了啊。先不论这十年浪费了多少人力金钱(因为科研中投入大量资源毫无产出是常有的事),但那些被施以错误疗法的患者怎么办?医生明明知道无效还让病患去治疗,这与毒疫苗般的谋杀何异?

8. 咸鱼姬,回应圆桌话题《造价千亿的港珠澳大桥,经济与政治是一本难算的账?》

香港段贪腐造假能被发现因为过去的香港还算有一个正常的公民社会状态,像北朝鲜就从来不存在贪腐超支造假这种事。香港大型基建造价高一部分源于人工贵,一部分源于物料需求,廉价劳动力从来不是值得夸耀的地方,偷工减料也不是。有些地方在通车前就发现有很多毛病,有些地方则是发生事故之后也没发现有什么毛病,到底哪个比较糟糕还真是难以抉择。

9. micks,回应圆桌话题《造价千亿的港珠澳大桥,经济与政治是一本难算的账?》

关于大桥经济效益的价值。大桥的存在,通车在什么方面促进了经济?

通常以来,道路带来的正面效益来自于更好的流通,实体的流通,人才的流通,而基于其定位,是促进香港内地的流通。

在我看来,大桥未开通前,其实香港和内地之间已经有良好的流通渠道,对于参与中港贸易、旅游,这些没有进步空间,买低卖高的行业而言即使有帮助也不会很大,当然对中港物流也有些助益。也就是说,大桥的效益是为一小部分不能再增强香港竞争力行业的人服务的。其效益就是帮香港一些把内地廉价货物卖到香港,食水很深的贸易商和物流公司更方便的做这些事。

举个例子,我家楼下领展的街市有一档专门短期买一些内地东西。今天我看到了一个平底锅,锅面有蜂窝纹路很好认,在淘宝上是大路货,零售价大概130人民币左右,而在这个街市的摊位买360港币左右。我在淘宝买,连转运运费大概不会超过180港币。也就是说,港珠澳大桥的功用之一就是更方便这些行业的从业者和经营者做这类买卖。

我本人并不了解这样的经济效益能带动香港什么,这样的经济效益有能促进香港的什么核心竞争力,科学技术的发展。只会让香港市民更倾向于做这些赚快钱,没有技术含量的行业,促进香港把自己做不了的科技行业外流国内。是舍难取易,舍大取小,舍远求近的发展策略。这又让我想起财政预算案500亿有350亿是用来建地产项目的荒谬资源分配。我当初听到这个预算案的时候真的是怀疑人生,没有听说过信息科技的发展是靠建房子的。阿里巴巴要建人工智能研究中心达摩院也是把钱花在请国外学术权威,行业专家和配套的“硬件”设备,相信它投的几个亿中不会有大部分用来找场地。

另一方面,对于促进国内同胞来香港旅游消费的效益也不大。他们大多数是内地华南地区,对于他们而言香港的吸引力就在于进口产品比较便宜。对这群人而言他们只要能赚个差价,就算没有大桥,高铁他们乘搭动车和航空都是不错的方法。所以对于增加本地旅游业和对外零售实在只能说是锦上添花。

这座桥应不应该建,建的效益是不是对的起它的造价其实道现在是一目了然。

当然如果这座桥只是为本地的建筑业经营这和地产发展商输血,不失为一个“好”工程,至于超支,也不要赖立法会拉布,因为这个工程本身就是大白象式,输血目标大于建造目的。拉布也只是为了阻止大桥对现实的负面效果(生态等无法量化的方面)能减少些。当然不可否认,无论怎么样,既得利益者都乐于成见。

但这也体现出香港的法律系统已经not function,官商勾结围威喂的氛围越发严重。如果是在古代,基本上就是进入(改革派提出改革—>利益既得群体和改革派开启党争—>改革实施—>利益既得者在实行改革的各个阶段扭曲政策—>改革效果背道而驰—>革新不了了之—>政府等死)的流程。

10. Vanadium,回应圆桌话题《“损害大学声誉”拟被浸会大学纳入违纪行为定义,你认同吗?》

“损害学校声誉”这条让我想起了我的高中。

当时我所在的学校给我们制定的众多规矩之一就是“不能损害学校声誉”。还记得我上学时网络上学校的贴吧还比较活跃,许多同学经常在上面发言,有的是讨论学习内容的,还有的就是讨论学校一些不尽如人意的地方,这些内容我们只能在网上讨论,因为在学校讨论被老师听到是要受处分的。

不过贴吧上的讨论也不过是对学校不让学生带首饰,挂坠,女生不能留长发,刘海不能过眉毛等等规定的吐槽,还有各种衍生的段子。当时我们的教导主任是个政治老师,听他交过的班的同学讲他上课从不讲课,从来就是宣传所谓的“爱国主义”,还特别爱骂日本,说什么日本人都是“流氓”,一骂能骂一节课。

有一次周一升旗仪式,快要结束时他突然上台拿起话筒,以一种近乎恐吓的语调警告我们不要在百度贴吧上发表“侮辱学校”的言论,之前的不再追究,如果再有人发布不良信息学校就会根据那个人在网上发言的用词习惯,贴吧发言,账号名,帐号头像等等在全校调查发言人的真实身份,捉到之后就立即开除。从那之后贴吧果然“正能量”许多,只剩下讨论学习高考的内容。

尽管这样,大多数学生毕业后谈到学校的各种规定时都会予以肯定,在外面听到有人说学校这么做不妥时都各种“义愤填膺”,会说学校不制定这些规矩你能认真学习吗...

本刊载内容版权为端传媒或相关单位所有,未经端传媒编辑部授权,请勿转载或复制,否则即为侵权。

延伸阅读