唐杰教授所带领的团队,运用数据挖掘的方式,来为疫情进行如同做“CT”一般的操作,那原本看不见的病毒,如今能够被看见了。
疫情地图不止看颜色 还能读出复工安全指数
2020年2月,国内疫情处于最为胶着的状态时,各地所推出的疫情地图差不多成为了每一个人的浏览器首页。然而,那些心思细腻的用户迅速就发现,这些地图当中大多数仅仅只有累计确诊、现存确诊这几个简单的数字。来自北京清华长庚医院的王医生曾经发出抱怨,想要了解海淀区某一个街道的复工风险等级,把五个平台都翻遍了也找寻不到。唐杰教授所指导的计算机系团队敏锐地捕捉到了这个痛点,于是决定搭建一个并非只能“看图”,而是更能够“读数”的智能分析平台。
数据孤岛变数据湖泊
研究人员在疫情开始初期最感头疼的是遇到数据打架情况,国家卫健委、丁香园、约翰霍普金斯大学所呈现的数据有时会相差几千例,团队自2020年2月15日起,每日凌晨三点定时去抓取23个国内外数据源,他们运用Word2vec语义相似度算法先将不同来源的“治愈人数”“已康复”“出院病例”归为一类字段,接着安排5名清华本科生轮流值班进行人工校对,到3月10日,平台已然能够达成15分钟内的多源数据融合,误差率被控制在0.3%之下。
将数据进行整合之后形成的那个数据湖泊,在2020年4月的时候迎来了第一批企业用户。杭州有一家跨境电商公司,该公司的市场总监是李明,李明跟记者讲,他们是借助那个平台发现东南亚多个国家确诊曲线的斜率开始变得平缓,提前两周就准备好了口罩以及额温枪的货物,就在那一周对印尼的出口额增长了40%,以前这些数据需要分别去查询七个国家卫生部的英文网站,如今一张动态地图就全部都能解决了。
政策新闻不再躺在文件柜里
仅是有病例数字是不足够的,唐杰团队又开展了一件“笨功夫”之事。他们针对从2020年1月1日至5月1日的,来自51个国家、6种语言的51588条疫情相关政策、学术论文以及新闻报道,全都进行人工标注地理坐标。技术负责人张博文回忆称,最为困难的是匹配省级政策与地市级落地措施,就像加拿大安大略省宣告紧急状态,然而多伦多市的封城细则晚了三天才公布,算法必须将这两条事件关联呈现。
2020年5月,这个功能给众多留学生家长帮了大忙,当时好多家长想让孩子回国,却又害怕路上被感染,平台将航班限制政策、当地确诊率、机场人流热力数据叠加呈现出来,住在海淀区的赵女士发现,儿子所在的曼彻斯特大学周边社区感染指数连续两周低于0.8,于是她决定让孩子原地留守,而不是冒险包机,这个决策为她省下了近6万元包机费用,还避开了中途感染风险。
SEIR模型加进戴口罩指数
大多传统流行病预测模型假设人人采取同等防护,这与现实严重不符。唐杰团队在经典SEIR模型里加了独创,将苹果和谷歌发布社区出行活跃度、百度搜索“口罩”关键词频次、甚至小区封闭管理数量作为变量。2020年4月初,模型出现预测意大利伦巴第大区拐点将在4月15日前后到来,实际新增确诊峰值确实出现于4月18日。
后来,广东某市政府应急办借鉴了这个模块。2020年6月北京新发地疫情发生之际,他们运用该模型模拟了三种复工方案。预案予以显示,要是采取跨省通勤人员全员核酸检测,那么工厂能够保持80%产能。实际执行过后,该市当月工业增加值同比仅仅下降2.3%,远远低于省内其他城市平均7%的降幅。应急办主任在内部会议上表示,这是头一回用计算机跑出防疫经济学的最优解。
风险指数给城市“体检”
不可仅依靠确诊数来对一个地区的风险予以评估,团队运用随机森林这一算法为232个国家以及地区进行打分,所输入的特征涵盖每千人检测数目、每千人病床数量、政府响应时效乃至手机信号覆盖率,在2020年8月平台所显示的越南风险指数仅仅为0.17,明显低于全球平均的0.43,三星电子越南工厂的人力资源负责人在看到相关数据之后,决定将原本定于9月的裁员计划予以推迟,转变为招聘本地临时工。
本国的城市也被这一套评分体系映照出了不足之处,某处在二线位置的城市,其核酸检测点每一万人口的拥有数量,在全国范围内排列于第47位,远远低于它经济总量所处的排名位次。卫生健康委员会借助平台,对杭州以及南京的做法展开了横向比较,在三周的时间里于全市范围内增设了86个社区检测点。当地疾病预防控制中心的科长在进行回访之时坦率表示,以往仅仅去跟自身的历史数据作比较,无法瞧出存在的差距,如今看到地图之上处于同一梯队的城市都呈现出了绿灯状态,那种紧迫感瞬间就涌现出来了。
代码开源让抗疫成接力赛
在2020年9月10日,平台访问量突破37万人次的那天,团队于GitHub上传了全部110万行代码,以及脱敏后的51588条事件数据。如今,该项目已被引用137次,中科院地理所、复旦大学公卫学院都依据这套框架搭建了区域疫情决策系统。最令唐杰感到欣慰的是,在2021年西安疫情期间,有开发者运用他们开源的匹配算法,仅仅花费三天时间,就上线了西安本地的封控政策查询工具。
曾在校庆云科展上,医学院张林琦教授给予肯定,进而促成了跨学科合作。当下,团队正与公共健康研究中心展开合作,试图将病毒基因测序数据叠加进地图。倘若你来设计这个疫情数据平台,最期望增加何种维度的分析呢?比如说疫苗分配公平性监测,又或者医院ICU床位压力预警?欢迎于评论区分享你的想法,点赞以使更多人目睹这群理工科学生的硬核抗疫实践。


