面对疫情大考,大数据到底能发挥怎样的功效几何?中国工程院院士邬贺铨明确表示,大数据于科学防控方面依然存在着深度的探索余地,然而要使得数据切实“活跃”起来,还得依靠真实数据的开放以及个人信息的保护。就在近期,南都大数据研究院针对全国政府数据开放平台进行了一次“全面检查”,结果已然发觉能够提供带有疫情相关数据集的平台,在全国范围内仅仅只有12个,并且这些平台所提供的信息价值优劣不一,真正具备实用价值的更是少之又少。
疫情数据开放的“家底”有多厚
截至3月3日,在全国102个省级、副省级以及地级政府数据开放平台当中,仅有12个省市上线了疫情数据集,这个数字听起来着实有点寒碜,毕竟疫情与每个人的生活息息相关,数据公开得越早且越细致,对于防控便越有利,然而现实却是,大部分平台尚未来得及将疫情数据展示出来,或者展示出来的内容还相对比较粗糙。
详细到病例方面的数据,能够查到“个案详情”的仅仅只有4个平台。这意味着,要是你想要去瞧瞧每一个病例的具体情形,像是去过哪些地方、是怎样确诊的,绝大多数地方根本就不予以提供。数据开放可不是仅仅摆出一个总数就宣告完成了,而是必须如同剥洋葱那般一层一层地深入下去,才能够使得专业人员以及老百姓明白疫情的前因后果。
哪些地方的数据做得更实在
于省级平台当中,山东公共数据开放网算得上是做得相对靠前的,在十二项分析指标里占据了九项。于市级平台之中,青岛市公共数据开放网直接包揽了全部十二项指标,深圳市政府数据开放平台亦是紧跟其后。这能够表明在数据开放的竞争当中,某些城市确确实实付出了努力,将病例信息、活动轨迹、分类数据均呈现了出来。
深圳的数据为何受到关注呢,青岛的数据为何受到关注呢,因为这两者不光存在总数方面的情况,还存在细节方面的情况,比如病例之中年龄方面的情况,还有性别方面的特定情形,以及接触史方面的关键状况,这些关键信息能够助力研究人员描绘出更为精准的传播链,与之形成比较的是,许多平台仅仅汇报确诊数字这一单一情况,对于其他信息却采取遮遮掩掩的行为,因而这对于防控决策所起到的帮助就会大打折扣了。
疫情数据集上线的时间线
是哪一方最先采取的行动呢?在一月三十日这一天,北京市政务数据资源网、山东公共数据开放于网络、济南市公共数据开放在网站同时上线新冠疫情相关的数据集合。紧接着到了第二天深圳也开始进行跟进,二月一日深圳更是在其首页专门开辟搭建了一个名为“新冠肺炎疫情数据”的专题页面。这些早早开始行动的平台,为其他地区树立了榜样:数据公开的速度越快,公众内心就会越发安心,谣言也就只会更没有传播的空间。
然而,登上上线的时间早并不等同于质量就高,有些平台尽管抢占了先机,可是数据格式显得死板,进行下载的时候麻烦,反倒使得想要使用数据的人干着急,时间的早晚固然是重要的,不过后续的更新以及维护较于来讲更拷问功夫。
疫情数据集里到底装了啥
一共12个平台上面了69个疫情数据集,其中差不多一半是关于病例信息的 ,剩余的种类繁多,有疫情防控物资企业名单 ,有生活服务指南 ,甚至还有和教育科技以及交通运输相关的内容。这表明疫情期间 ,政府不仅关注病例 ,也在尽力协调医疗 、生活 、经济各方面的资源。
但当打开这些数据集时,体验便呈现出极大的差异了。深圳以及贵阳的平台,连贯地给予了xls、csv、xml、json、RDF这五种能够被机器读取的格式,不管你希望怎样进行分析都可以。然而,有的平台仅仅提供一两种格式,甚至在下载时还必须进行注册登录,一番折腾后最终登录失败,北京某个平台的“找回密码”功能着实令人抓狂,既接收不到邮件,手机也无法验证,数据就这样停滞在那里无法下载下来。
数据开放不能只挂个名
提到数据开放,复旦大学郑磊教授表示,得做到“完整、一手、及时、可获取、可读取”才行。当下,有的平台虽挂出了疫情数据,然而点进去查看,要么格式陈旧,要么信息不完整,甚至根本无法下载。这就如同商店挂着“营业中”的牌子,推门进入却空空荡荡,致使让人白跑一趟。
并非专门为了达成任务而去使得数据开放,恰恰相反是要促使数据切实地发挥其应有的作用。就如同北京大数据研究院王鹏所表述的而言,数据务必具备充足的颗粒度,甚至应该能够与其他数据实现相互连通。当研究员手头上拿到病例数据之时,要是能够将人口流动、交通出行等方面的信息与之相结合进而构建模型的情形下,便能够预先推测疫情的发展趋向。然而当前大部分的数据却依旧无法顺利达成互联互通,各自处于独立状态所导致的最终结果就是其价值遭受到大幅度的削减。
如何让疫情数据真正“能用”
深圳与青岛的经验值得去借鉴,数据越是细致,格式越是全面,下载越是便利,使用者便会越多,像深圳的专题页面,将病例个案详情以及活动轨迹都列举得很清晰,普通市民能够自行检查风险,科研机构也能够进行深度分析,又比如贵阳,下载格式多样,无需费劲就能获取数据,自然而然更具吸引力。
毋庸置疑,数据开放势必要守住隐私底线,病例的姓名、身份证号这类无疑是绝不能公开的,然而年龄、区域、接触史此类关键信息,在经过脱敏处理后则完全能够放出来,平衡好透明与隐私,既能够让公众内心踏实,又能够为防控提供助力,当下仅有4个平台敢于公布个案详情,表明大家对于隐私保护仍有些顾虑重重,在这方面还需要更为明晰的法规予以支撑。
就这些疫情数据开放的当前状况看过之后,你认为你身处的城市,所公布的数据是否足够用呢?要是让你来提建议,你最为期望政府公开哪些疫情方面的信息呢?欢迎在评论区域进行交流探讨,要是觉得文章具备价值那就轻点一个赞,使得更多人留意到数据开放这件事情。






