准确率一度是100%!清华校友神预测美国疫情_科学发明
最近,一个关于上帝预测美国和欧洲疫情数据的每日博客在网上走红。
有多神奇?举两三个例子如下:
-从3月27日开始的10天,博客对美国感染人数的预测准确率在90%以上,4月4日准确率接近100%。
-3月31日,博客预测美国疫情在检出人数超过200万的情况下,将在8-10天内断崖式下跌;7天后的4月6日,美国的疫情数据出现了断崖式的下跌,涨幅从12.43%下降到8.13%。此文引起巨大反响,阅读量超过1.34万。
-自3月27日以来,欧洲感染人数日均预测准确率达到97%,4月前5天,预测准确率接近100%。
李志斌对美国感染人数的预测准确率高达90%
对此,有网友评论:大神,病毒听你的,绝对。
要知道,新冠肺炎疫情的爆发是一次全球性的重大公共事件,涉及政治、经济、地理等诸多复杂因素。预测具体人数听起来像天方夜谭,准确性是玄学。所以,这个博客背后的博主,堪称当代神算子。
那么,这个神算子是怎么炼成的呢?
清华大学毕业生+8年市场预测经验。
这个博客背后的博主,神算子本人,名叫李志斌。
李志斌,1980-1985在清华大学计算机系学习,1985-1994在中国科学院学习工作。30岁做副研究员,产品部主任,主任助理。1994移居新西兰,后定居香港。目前,香港智佳物流软件有限公司。
李志斌博客截图
李志斌所在的两家公司中,前者的主营业务是物流系统开发;后者有香港中文大学背景,主营业务是市场需求预测,即向企业提供特定区域未来三到六个月的产品需求和价格波动的数据分析和预测。
李志斌说他是从2012进入数据分析和预测领域的。由于在怡景公司的香港中文大学背景,李志斌也从教授那里学到了很多东西。
此外,从技术角度来看,李志斌在清华大学计算机系的学习经历也使他在软件建模和大数据分析方面形成了完整的知识体系;同时,清华大学的学风和理工科背景也让他更注重数据、证据和实例,而不是结论。
所有这些加起来使李志斌对数据非常敏感。
去年年底和今年年初,武汉开始出现病例报告,香港也出现疑似新冠肺炎患者,这让久居香港的李志斌颇为警惕;2020年6月7日,新冠肺炎被香港特别行政区政府宣布为法定传染病,疫情数据开始对外公布。于是,李志斌开始追踪新冠肺炎的相关数据。
从那以后,李志斌每天早上起来收集集中的数据。一开始只是武汉、湖北、香港的数据,后来是大陆其他地方的数据。到6月底5438+10月,开始收集海外数据,整理成Excel表格。同时开始利用自己的专业知识对数据进行建模,并结合新闻中的数据对官方通报的数据进行分析判断。
起初,李志斌只在清华的同学中分享数据和观点,后来每天花30分钟写博客并发布在新浪博客上。如今,这已经成为一种日常习惯。
当然,对于李志斌来说,除了收集、整理、分析常规数据之外,他也在不断结合自己的专业知识构建数据模型,不断补充、验证这个模型的参数,以达到预期的效果。
3月27日,基于稳定数据模型,李志斌首次给出了美国感染情况的预测数据。3月28日,他给出了欧洲感染的预测数据。
李志斌对欧洲感染人数的预测平均准确率高达97%
在他的预测中,不仅是感染病例数,还有感染增长率、高峰时间、感染总人数、死亡总人数、死亡率等数据。当然,感染人数是他用来衡量预测准确性的最重要指标。
就连李志斌自己也没有料到他的预测数据会如此准确。
但李志斌强调,没有人能用1,000%准确预测未来,预测必须是滚动的。
他说:预测是一个动态的过程,因为许多意想不到的因素如即时措施和事件是不可预测的。这时候就需要把这些突发事件和决策转化为参数的调整,并反馈到预测模型中,使其运行更加准确。我的预测模型和预测参数也在不断完善的过程中。
再好的软件也无法做到100%的准确预测。
李志斌的预测离不开两个核心要素:数据和预测模型。
首先是数据的可靠性。在采访中,李志斌说她从6月5438+10月开始每天收集数据。一开始只有武汉和香港有数据,到现在她每天收集上百个国家和地区的数据。
李志斌强调,在数据收集和分析过程中,需要识别数据冲突的出现;特别是在官方通报的数据量很大的情况下,会使用包括新闻数据在内的很多方法来检查不同地区的数据之间可能存在的数据冲突。数据冲突越多,数据可信度越低。
同时,在判断数据真实性的过程中,要看数据发布的速度;数据发布频率越高,可信度越高,而南亚和东南亚发布的数据越少、越慢,可信度就会打折扣。
疫情来自美国CDC官网。
此外,在判断数据可信度时,还可以借用新闻数据进行对比。李志斌告诉雷锋。com认为,比如医生和患者的比例是相对稳定的,所以可以从新闻报道的医务人员数量来推断患者数量。
他说,其实所有的数据都可能存在一些人为误差或统计误差,没有一个地区的可信度是100%;但相对而言,美国的数据冲突较少,欧洲的数据可靠性低于美国。因为西欧东欧不平衡,所以会取平均值。而印度、东南亚、日本的数据似乎存在一些问题,比如数据发布慢,数据冲突多,影响了数据可信度的设置。
到2月底,在之前基于国内数据建模验证的基础上,李志斌开始对美国和欧洲的疫情数据进行预测。因此,在这些数据的基础上,李志斌创建了一个预测模型。其实这个模型极其复杂,加起来有上百个参数,包括二三十个重要参数,分为以下三类:
第一类是不同流行参数的确诊病例数、人口数、每日新增确诊病例数、疑似病例数、每日检出病例数、死亡病例数、治愈病例数、住院病例数、住院病例数。
第二类参数与地区/城市/国家的特征有关,如城市类型、人口密度、气温、天气、城市60岁以上老年人比例、城市平均年龄、城市建设等。
第三类参数是关于资源和治理能力、医疗资源、医院床位数、社会组织能力、信息透明度、管理方式等等。
李志斌说,在实际操作过程中,一般是先用Excel采集数据,然后导入后台数据库,再用自己开发的软件模型得出三个结论。最后他会人为判断结果。他强调,有很多参数是无法量化的,比如社会情绪;所以人们需要参与。
他还说:再好的软件也不能100%准确预测。
当大船和小船同时遇到冰山时
毕业于清华大学的李志斌拥有超越数据分析的洞察力和思维。
例如,在建模过程中,李志斌从国内数据入手,这不仅对李志斌的建模过程产生了重要影响,也使他做出了一些观察。于是,在封城的前一天,他和清华80的同学分享了两个想法:
第一,武汉应该马上关闭,因为数据上涨太吓人了;
二是在湖北特别是武汉迅速建立了二三十个网格野战医院,作为隔离治疗中心,所谓的野战医院,也就是后来的方舱医院。由于疫情发展过于激烈,隔离病人是比治疗更关键的防控措施。
这些想法在同学中引起了很多讨论,当然也有质疑和反对的声音,但更多的是同学们的积极参与,提出了很多更好的想法和建议,受益匪浅。后来证明这些想法是中肯的,也得到了官方后续措施的印证。其中,关于野战医院的设想提前了两周。
除了以上建议,李志斌在数据分析和模型构建过程中还发现,成为爆发点的城市往往有几个特点:
老城区;
气候潮湿;
气温5-15度;
污水系统老化;
老年人比例高。
值得一提的是,不同国家的疫情城市,比如中国的武汉、韩国的大邱、意大利的米兰、伊朗的德黑兰、美国的纽约等等,一般都符合这些特征。
至于这些特征的归因,李志斌强调其中掺杂了个人主观合理的猜测,但也是经过一系列结果的验证,才最终体现在预测结果中的。
他还表示,其实在参数中,也涉及到社会组织模式、管理模式、社会信息透明度等问题,所以他也会在预测中把结果设定为悲观或乐观。
根据李志斌4月4日给出的悲观预测结果,他对美国感染人数的总体预测准确率高达96%。
李志斌对美国感染人数的预测准确率高达96%
然而,在一次独家采访中,李志斌强调了数据在决策中的绝对地位,尽管有人类的参与。他说,即使不考虑疫情,在一个日常决策过程中,数据的重要性可以说是100%;这些数据不仅要真实,还要全面透明。即使有人参与后续过程,也是基于这些数据的数据,是决策的基础。
那么,基于数据的决策的覆盖范围是什么呢?
李志斌认为,即使是相当偶然的、包含政治、经济和其他复杂社会因素的新冠肺炎疫情,也是可以预测的。
他说,类似于传染病的情况,其发展有特定的模式。偶尔有规律,我们可能无法把握100%的准确规律,但在一定比例的规律下,我们还是可以做出一些判断和决定的。当然,前提是海量的有效数据。
由此,李志斌还谈到了一个有趣的比喻:
一艘大船和一艘小船,突然遇到冰山,必然会转弯;但相对来说,大船的结局显然更可预测。小船一下子就换了,但是大船太大,有惯性,更容易撞到冰山。这个惯性就是定律,船的体积本身就是数据量。
数据量越大,数据越准确,相关信息越透明,就越容易预测,预测这类群体性事件的发生就越准确,李志斌最后说。
要知道,准确率曾经是100%!更多“清华校友神预测美国疫情”信息,请持续关注深空科技资讯栏目,深空边肖将持续为您更新更多科技新闻。
本文来源:深空游戏编辑:匿名王者之心2点击试玩