人人手机里每日必看之信息乃是2020年谱定到2023历数的疫情数据。自武汉起始至上海辗转而后延及全国各处,精确有序的数据采集径直关联着封控范围之划定、医疗资源之分配以及老百姓日常起居之状态。把控疫情数据采集途径并非独家属于技术人员,却是每一位公共卫生关联专业的学生务必掌握必备的基础技能。
数据采集前先搞懂三个基本问题
新冠疫情相关数据究竟是什么情况呢。自2020年1月20日始国家卫健委着手每日通报疫情起,数据涵盖确诊病例、无症状感染者、疑似病例、密切接触者、死亡病例以及治愈出院人数这六大类别。数据的来源主要存在三个渠道:各地医疗机构所上报的核酸检测结果,社区排查过程中所发现的发热人员,还有交通枢纽的体温检测记录。
用途各异的数据存在着不同类型,在流调数据方面,其要求精确到每个人过往的14天活动轨迹,以及接触过的人群,还有具体的时间点,在2021年北京新发地疫情期间,流调人员借助追踪商户的进货台账以及支付记录,在48小时之内锁定了病毒传播的关键节点,而学生需要清楚明白哪些数据是实时采集的,哪些数据是汇总统计的。
线上线下采集方法各有门道
主要依赖各类信息登记系统进行线上采集,在2022年上海疫情时期,随申办APP每日处理健康码查询请求数量超过2000万次,学生要学习运用爬虫技术抓取公开数据,像从各地卫健委官网自动摄取每日通报信息那般,并且要掌握API接口调用方式,从国家政务服务平台取得标准化的疫情数据集。
更考验实战功力的是线下采集,对于参加课程之人要组织此类模拟演练使用配套实操设备来采集模拟数据并且学会设计纸质登记表和电子文件,在2020年武汉因疫情封城期间就有社区人员身披防护服逐户测量体温以此登记健康状况,在2021年南京那场禄口机场出现的疫情当中是通过优化过的登记表格才把旅客通关时间从15分钟缩短至3分钟。
数据清洗整理决定分析质量
2020年2月湖北疫情数据里,有同一病例被重复统计的状况,采集到的原始资料不能直接拿来用,学生需学习辨别常见问题,像身份证号位数不正确、日期格式不一致、体温数据值显著异常等,运用Excel或者Python中的pandas库来进行去重事宜、填补缺失的数值以及修正错误的数据。
应当构建起规范的标准来进行数据整理。在2022年长春疫情那段时期,当地的疾控中心将所有的数据字段统一成为34个标准列,其中涵盖采样时间、检测机构、试剂批号、CT值等。课程会教导学生运用SQL语句针对数据库作查询以及筛选,将分散于多个表格里的信息关联到一起。并且要把控数据脱敏技术,把患者的姓名以及详细住址隐去,以此保护个人隐私。
统计方法让数据开口说话
最基础的武器是描述性统计。在2021年郑州疫情期间,经计算每日新增病例的平均值与标准差,发现7月31日至8月5日的病例数波动超出正常范围,进而判断隐匿传播链存在。学生需学会用SPSS或R语言计算频数、百分比、累计发病率等指标。
具有推断性质的统计能够对趋势作出预测,在二零二零年三月针对武汉封控措施所展开的效果评估当中,流行病学家借助SEIR模型去拟合实际的数据,据此推算出要是没有实施封城的话,感染的人数将会超过七十五万,是具推断特性的评估统计方法,课程会对卡方检验进行讲解,它被用于比较不同人群的感染率差异,还会讲解时间序列分析,其用于预测未来一周的病例变化,在二零二二年香港的第五波疫情里,港大团队正是运用这种方法预测出了峰值时间,是具推断特性的评估推算方式。
可视化工具让数据一目了然
最常用的展示方式是静态图表,在2021年西安疫情期间,央视新闻发布的折线图清晰展示了病例走势,从12月9日起,一直到1月18日,公众一眼就能看出,在12月25日达到峰值之后开始下降,学生要学习用Tableau制作柱状图来对比不同城区的感染率,还要用饼图展示年龄分布,并用热力图呈现病例的地理聚集情况。
动态仪表盘适宜用于实时监控,在2022年深圳疫情防控指挥中心的大屏幕之上,每个街道的核酸采样完成率、样本送检时间以及已出结果数量在实时滚动着,课程会教授利用Power BI连接数据库,设置自动刷新功能,当某个指标超出阈值时自动标红报警,学生还得学会制作地图可视化,将病例数据投射到实际地图上,以便决策者能够快速定位高风险区域。
评估考核确保学以致用
平常时候的成绩在总评里所占的比例是百分之三十。课堂之上设有模拟演练的环节,比如说会给到你一份有着1000条记录的假定疫情数据,要求在20分钟之内找出里面全部的错误并且阐述清楚原因。小组展开讨论的时候要剖析真实存在的案例,就好像2021年石家庄疫情那段时期,为什么藁城区增村镇的病例数据会出现两天时间内突然暴增300例这样的状况。
作业当中以及考试之时着重关注实操能力,头一回的作业是去撰写爬虫脚本,自国家卫健委的官网那儿抓取过往30天的全国疫情数据,而后保存成为CSV格式的文件,第二次所要求的作业是要对一份经过人为故意而设置过错误内容的模拟数据进行清洗,写出处理的步骤以及最终呈现的结果,期末考试是划分成为笔试以及上机两个部分的,笔试考查的是概念以及方法,上机则考查实际采集以及分析了10个省市在2022年一整年的疫情数据,并且需要提交一份涵盖图表以及结论的分析报告。
研习了这般繁多的方法,你认为自身所处的城市要是再度浮现疫情,当下存在的数据采集系统能够在一小时之内完成全体人员的风险排查吗,欢迎于评论区域分享你的观察以及思考,并且也别忘了点赞转发从而让更多学习公共卫生的同学瞧见这门具备实用价值的课程。


