一名病人会传染多少人？疫情会爆发？病毒数学模型的建立和困难

恰好一个月前，1月27日大年初三凌晨12时许，一封来自香港大学李嘉诚医学院的采访邀请突然弹进记者的手机屏幕，通知当天下午3时有一场记者会，港大医学院院长梁卓伟会更新他对新型冠状病毒疫情的数学模型推算。

此前6天，年廿七，梁卓伟才就相同主题举行过记者会，当时中国大陆以外的输出个案只有4宗，这也成为他当天发布的数学模型的推算基础之一。然而，疫情发展之快，无人能预料，第一次记者会翌日（1月22日）中午，输出个案已上升几近1倍，达到7宗，梁卓伟遂在Twitter发推文，指21日那天发布的推算因而不再有效。而大年初三的第二次记者会的内容，就是按当时最新的发展而更新估算的。

新冠病毒（COVID-19）疫情持续蔓延，截至2月27日公布的数据，中国政府公布确诊人数为78,497人，死亡2,744人，而在韩国、义大利、日本、伊朗等地，已出现上百甚至上千的大量确诊个案，全球的科研人员都正与病毒竞赛，欲预测病毒的传播规模和路径，进而控制其进一步传播。在香港，港大团队已在《刺针》上发表其预测病毒在中国内地以至全球传播规模的正式论文，香港中文大学（中大）正在模拟香港阻截新冠病毒疫情扩散措施的有效程度，论文尚未发表。而在英国、美国、德国等的科研人员都正在建立不同类型的数学模型，用数字和科学追击病毒。

话说回头，港大如此赶急的记者会通知，以至他们不断修正的推算，反映的不只是疫情之下，学术论文发表要与光速竞赛，也是“幕前”的临床医护人员，以至“幕后”的公共卫生学者对抗新发传染病突袭之下的分秒必争。到底数学模型是什么？科研人员又是如何建立模型的？端传媒就此采访了正在建立相关数学模型的中大赛马会公共卫生及基层医疗学院助理教授郭健安。另外，我们曾多次联络港大医学院梁卓伟数学模型团队邀约访问，至截稿未获回复。

基于科学假设的沙盘推演

港大团队的数学模型估算，武汉一个病例平均直接传给2.68人。用流行病学家的说法，即“基本传播系数”是2.68。

究竟什么是数学模型？“你可以理解它是我们中学数学时所学的‘方程序’。”中大赛马会公共卫生及基层医疗学院副教授蔡锦辉告诉端传媒，天文台的气象学家使用数学模型预测天气，而医学界的流行病学家（Epidemiologist）则以数学模型预测疾病的走势。流行病学家按疾病的特性，编写不同的“方程序”，并在其中加入一连串的“假设”，运算后得出疾病走势的估算，究竟快速上升，还是缓慢上升。

传染病爆发后，必然要阻截其传播。至于哪些措施有效？戴口罩？停课？全民在家工作？口岸测体温？限制出入境？那就要以另一些数学模型去估算。中大同一学院的助理教授郭健安目前正是在建立这类模型，他对端传媒表示，假若现时有5项措施可以阻截传染病散播，流行病学家便运用数学模型去估算哪个最有效。他说，有时候数学模型预测某种阻截措施最有效，但其成本最高，这便要由政府去考虑要不要退而求其次，采用估算结果属第二有效但成本可负担的措施。

也许我们可以这样说：数学模型就是流行病学家“沙盘推演”疫情走势，以至预测阻截措施有多有效的方法。

第二次记者会后4天（1月31日），医学期刊《刺针》（The Lancet）刊出了港大梁卓伟团队的正式论文，详述他们“沙盘推演”的详情。被称为世界上最大的人口迁移、为期40天的“春运”，今年由1月10日开始，跟此次疫情同期发生。人口大批流动，是传染病扩散的“助力”。团队的推算，以一个名为SEIR的数学模型为基础。概括而言，此模型假设新冠病毒令一群没有抵抗力的人（即S，susceptible），经过潜伏期（即E，exposed，受感染）、具传染性（即I，infectious）及康复期（即R，recovered，此项也包括死亡）这样的病发模式，来编写方程序，以估算病毒的传播情况。

当时医学界对这个新发传染病认识十分初步，港大团队参考SARS或MERS的数据作假设，并纳入在方程序中，包括假设新冠病毒的潜伏期与SARS及MERS近似，即平均为6天；又假设由一名病人传给另一名病人所需日数（发病世代间隔／系列间隔，serial interval）与SARS在香港爆发时相同，即平均8.4日。另外，团队亦假设2019年12月1至31日期间，武汉的疫情由持续的动物传人并造成86宗个案而起。86宗的假设，是港大凭中国疾病预防控制中心（中国疾控）的公开资料，得知截至1月19日，有43宗确诊个案曾在最可能是疫情源头的武汉华南海鲜市场活动过，他们以此数的两倍数来订定。

团队运用现成的数据，包括Official Aviation Guide的环球航班订位数据、腾讯位置大数据，以及武汉当局2020年估计春运期间出入该市人数共三组，来估算每日乘坐飞机、火车或利用公路出城的人数。研究进行时，武汉及周边地区在1月23至24日开始封城，团队假设此后新冠病毒的传播力在中国大陆大城市中出现三种情境：没有下降、下降25%及下降50%，借此模拟北京、上海、广州、深圳及重庆五大城市的疫情走势。

根据他们的估算结果，截至1月25日，武汉市受感染人数接近76,000人。参考中国国家卫生健康委员会（卫健委）的公布，截至2月27日公布的数据，武汉累计确诊病例为47,824宗。

至于其他中国大城市，港大团队当时估算，除了北京、上海、广州及深圳四大城市可能出现80至113宗自武汉输入的个案外，重庆同期估计输入个案达461宗，主要原因是武重两地陆上交通极之频繁。他们又估算在新冠病毒的传播力没有下降的情况下，武汉的疫情高峰（拐点）将于4月出现；但若传播力下降50%，则疫情上升速度缓慢，2020年上半年不会出现疫情高峰。

数学模型究竟是否疫情估算的“水晶球”？中国疾控中心主任高福曾于1月22日的新闻发布会上，回应外国传媒问及英国有大学的数学模型估算中国有2,000人感染时指出，“事实是事实，知识理论是理论”，又称：“这样的模型是不是和事实相符合……我想，随著大家对这个病毒的认识，会去验证这个模型。”当天官方公布的全国确诊个案为440宗。

此前一天，梁卓伟在第一次记者会上，曾谈过数学模型的用途：它是给公共卫生当局评估“有没有漏招”（作“有否失策”解，这里兼指有没有个案遗漏）：“如果……（数学模型推算出来的）数字比（当局）所公布的确诊个案多，（那么当局）是否可以再加把劲抗疫与防疫？是否要再做好一点，往前多走一步，去检视有什么漏网之鱼的可能？所以，这是（进行数学模型推算的）最重要目标。”

港大团队的数学模型还估算，武汉一个病例平均直接传给2.68人。用流行病学家的说法，即“基本传播系数”是2.68（亦有译作“基本繁殖率”，basic reproduction number，通常写成R0）。

基本传播系数反映的是传染病的传播力有多高。麻疹的传染性极强，根据医学文献，估计它的基本传播系数达14.5，即一个患者平均传给14.5人，而SARS的是3.5。但是，中大的郭健安指出，传染病的传播力跟它的死亡率或住院率未必有关系。例如伊波拉病毒病的基本传播系数是1.51，比上述梁卓伟团队得出新冠病毒的基本传播系数低，但伊波拉病毒病的平均病死率（average case fatality rate）是50%，比新冠病毒暂时所知的病死率2.3%高很多。

建模的困难：假设的偏差、数据的缺乏

港大团队的数学模型，难以处理由武汉到香港／澳门之间转换交通工具的情况，没有再估算输入香港个案的数字。

数学模型建构有它的难度。若纳入的假设与实际情况有距离，可影响估算的准确度，“沙盘推演”出来的结果，可能会出现偏差。

港大团队是于1月21日的首次记者会上，公布他们截至1月17日的数学模型的预测。港大团队在该次记者会上，一度估算香港的输入个案为零，上限为3宗，但在之后第二次记者会上，梁卓伟再没有提及修订后输入香港个案的估算数字。

翻查香港的统计，从1月23日年廿九香港出现首宗新冠病毒的确诊个案起计，至港大27日第二次记者会那天，共有8宗。经卫生防护中心流行病学调查后，均列为输入个案（见个案编号1至8）。综合政府发布的信息所得，当中只有3宗是在中国大陆出发时坐直达的交通工具到港，其余5宗，即超过一半均非直达，到港前，他们中途曾转换交通工具，例如有个案是乘坐飞机至深圳，再经罗湖口岸入境；又有个案是乘坐高铁，中途在深圳北站转车到达香港。

第二次记者会上，梁卓伟承认，他的数学模型中所用的数据，难以处理由武汉到香港／澳门之间转换交通工具的情况，尤其乘搭铁路的人，当中很大部分在深圳及广州转乘到港。若按他的数学模型估算，只能捕捉以直达方式从武汉到港的输入数字，因而会低估自武汉输入港澳两地的个案。

事有凑巧，1月27日这天，正是香港特区政府开始执行所有湖北省居民以及任何之前14日曾到湖北省的人，不能入境香港的新规定。

跟港大团队差不多同期发布的数学模型，大都集中在估算疫情的可能规模，包括武汉本身以至扩散至中国以外的规模。例如，比港大早发布的英国伦敦帝国学院（Imperial College London）数学模型，第一次初步估算截至1月12日武汉有1,700宗个案，第二次初步估算截至1月18日武汉的个案为4,000宗；还有之后英国兰开斯特大学（Lancaster University）的数学模型，初步估算截至1月22日，武汉有21,000宗；若疫情传播力不减，则估算截至2月4日会有超过190,000宗，该数学模型预测泰国、日本、韩国、台湾、香港、美国、新加坡、马来西亚、澳大利亚及越南等国家／地区出现输入个案机会较其他的高。

值得留意的是，这三份初步估算发布时，连同港大第一及第二次记者会的内容，并不像港大团队最终的《刺针》论文那样，刊登在经过同侪评审（peer review）的医学学术期刊上。而未经同侪评审程序的论文，只能视作初步结果。

中大的郭健安表示，疫情初期，的确需要这类数学模型估算新发传染病的流行程度有多严重，以及可能影响范围有多大，给有关当局以至公众一个概念。不过，很多时候，这段时间所做的数学模型前设，是每个人受感染的机会均等。可是，社群之内人与人接触的模式，是有差异的。

他举例称，有些人常外出，有些人不常外出，常外出的应该比不常外出的感染风险高。又例如三十多岁的人，社交圈子多是同辈，那么这个年龄组别的传染对象，理应也是同辈居多；至于四十多岁的一群，也许多已为人父母的关系，社交圈子除了同辈，还有儿童。故此，流行病学家随后以数学模型预测感染规模时，应向前踏一步，把这些互动及连系，纳入方程序中，模拟社群中不同人的不同活动模式，从而得出反映现实的预测。郭健安透露，中大正在做这类型的数学模型研究。

此外，疫症初期所发表的数学模型估算结果，基于医学界对该病所知有限，大有可能参考其他同类疾病的资料作假设，因此，随后建构的数学模型，应该纳入新发传染病后来浮上台面的资料作假设，目的也是为了得到贴近实际情况的预测。

非玩弄数学，最重要找出抗疫措施

中大团队估算新冠病毒在香港的“基本传播系数”为0.319，即一个病例平均直接传给0.319人——简单而言，这个系数少于1，表示疫情不能持续，大于1则表示爆发。

据美国医疗新闻网站STAT报道，正是因为超级电脑的应用，研究人员建构数学模型时，可以加入更多仔细的数据去反映人的活动及互动，使得估算结果更加接近现实。实践下来，美国每年大约有廿多个团队以数学模型来预测来季的流行性感冒走势，彼此的估算结果及准确度（包括流行时间及高峰期）已相差无几。

流行病学家在新冠病毒疫情上，是站在调查是次病毒如何散播及为何散播的前线人员，是“沙盘推演”的“操盘手”，他们所需要的，是来自不同领域的专业知识。

像梁卓伟，以至他团队的成员港大公共卫生学院流行病和生物统计学分部教授胡子祺，以及中大的郭健安，均是流行病学家。他们的学术背景来自各方面，像梁卓伟是医生，胡子祺是运筹学博士，郭健安本身为统计学家。另外，流行病学家中以建立数学模型作预测的，还有物理学家，像美国东北大学的Alessandro Vespignani，以及德国柏林洪堡大学的Dirk Brockmann；而在美国洛斯阿拉莫斯国家实验室工作的Sara Del Valle，是应用数学家。流行病学数学模型的翘楚，则不得不提伦敦帝国学院的Neil Ferguson、兰开斯特大学的Jonathan Read，以及美国哈佛大学的Marc Lipsitch等专家。

郭健安指出，从事数学模型建构的流行病学家，要先了解流行病学，了解疾病的自然史（即疾病本身的“生老病死”），之后才是建构数学模型。

郭健安参与的中大团队也有因应新冠病毒的疫情，以香港最早的56宗确诊数据建构数学模型，初步得出“基本传播系数”为0.319（此初步数据未经同侪评审），即一个病例平均直接传给0.319人。他称，简单而言，这个系数少于1，表示疫情不能持续，大于1则表示爆发。“香港的情况跟武汉不同，武汉的（基本传播系数）大于1，因为（疫情）开始时，他们没有任何干预措施（阻截病毒散播），……而香港是在有干预措施之下得出0.319的。”

其实，在流行病学家眼中，以数学模型估算出这些数字，只是对抗传染病的一部分，最终目标是以运算来抗疫，辅助公共卫生当局作出适当对策。根据56宗个案确诊经过的分析，中大团队还发现这些个案从首次发病到隔离的平均堵截延误日数为6.5天，其中本地个案的平均捣截延误日数更达7.6天，意味著隔离有所延误，值得政府注意。恰巧的是，在郭健安公布数据的翌日（2月19日）起，有发烧和呼吸道症状或有轻微肺炎病征的公立门诊及急症室求诊人士，须留深喉唾液样本作化验。郭健安之后认为，此举可望缩短堵截延误的情况。

“我们从事公共卫生的，不是玩弄数学。经数学计算而得出是2还是3（指“基本传播系数”），并没有意义。最重要的，是（利用数学模型）对抗疫情。所以说，利用数学模型的推算，找出一个最有成效的措施（阻截散播），才是我们要探讨的问题。”郭健安说。

本刊载内容版权为端传媒或相关单位所有，未经端传媒编辑部授权，请勿转载或拷贝，否则即为侵权。

评论区 3

评论为会员专属功能。立即登入或加入会员享受更多福利。

tomhelpegg说道：

5年前

如果出了港大的都没有发表更没有发发在顶刊，钟南山的预测没有得到发表在柳叶刀有什么可抱怨的，无知还是装傻？
JohnShao说道：

5年前

明顯有傷害到端的利益，端的主要收入來源就是靠文章，而且他搬運里面有最新的文章。這是明顯侵權。
会员编号054说道：

5年前

第一次看到端在文章末尾注明“本刊載內容版權為端傳媒或相關單位所有，未經端傳媒編輯部授權，請勿轉載或複製，否則即為侵權。”为啥只有今天发的前两篇文章有这段话呢。？话说GitHub上有一个项目 https://github.com/xiaotianzi002/Article-from-Theinitium，以PDF文档的形式搬运了端的很多文章，这种算侵权吗，还是处在模糊地带？

一名病人会传染多少人？疫情会爆发？病毒数学模型的建立和困难

基于科学假设的沙盘推演

建模的困难：假设的偏差、数据的缺乏

非玩弄数学，最重要找出抗疫措施

被遗忘的湖南铊污染，潜藏着哪些隐忧？

白宫大量清除气候﹑传染病及性别数据，民间能否自救?

谁在为中国老年患者“供血”？美国低收入人群的隐秘生意

评论区 3