深入分析大数据的革命性前景

“大数据”是目前比较时髦的一个名词，是技术界用来解决世界上最棘手问题的全能方法。这个术语一般用来描述分析海量信息以发现规律、收集有价值的见解和预测复杂问题答案的技能和科学。这听起来可能有点无聊，但从阻止恐怖分子，到消除贫困，到拯救地球，对于大数据的倡导者来说，没有什么是解决不了的。

维克多？迈耶-勋伯格和肯尼斯？在《大数据:一场将改变我们生活、工作和思维方式的革命》一书中，丘吉尔欢呼道:“对社会的好处将是无穷无尽的，因为大数据将在某种程度上解决紧迫的全球问题，如应对气候变化、根除疾病以及促进善治和经济发展。”

只要有足够多的数据可以处理——无论是你iPhone上的数据、买菜的数据、在线约会网站的个人简介还是整个国家的匿名健康记录，人们都可以通过使用解码这些原始数据的计算能力来获得无数有价值的见解。就连奥巴马政府也赶上了这一趋势，并于5月9日向企业家、研究人员和公众发布了大量“以前难以获取或管理的数据”。

然而，大数据真的正是人们所吹嘘的吗？我们能相信众多的1和0会揭示人类行为的秘密世界吗？以下是笔者对所谓大数据理论的思考。

1.“有了足够的数据，数字就能说明一切”

不会吧。大数据的倡导者希望我们相信，在代码行和庞大的数据库背后，有关于人类行为模式的客观和普遍的宝贵见解，无论是消费者支出模式、犯罪或恐怖行动、健康习惯还是员工生产力。但许多大数据的鼓吹者不愿意正视其缺点。

数字不能自己说话，数据集——无论大小——仍然是人类设计的产物。大数据的工具，比如ApacheHadoop软件框架，并不能让我们摆脱曲解、隔阂和错误的先入之见。

当大数据试图反映我们所处的社会世界时，这些因素就变得尤为重要，但我们常常愚蠢地认为这些结果总是比人为的意见更客观。偏见和盲点存在于大数据中，就像存在于个人的感受和经历中一样。然而，有一个令人怀疑的信念，即数据越大越好，相关性相当于因果关系。

例如，社交媒体是大数据分析的常见信息源，毫无疑问，那里有大量信息可以挖掘。我们被告知，Twitter数据显示，离家越远的人越快乐，他们在周四晚上最抑郁。但是有很多理由质疑这些数据的意义。首先，我们从皮尤研究中心了解到，美国只有65，438+06%的成年人使用Twitter，所以他们绝对不是一个有代表性的样本——与整体人口相比，他们中的年轻人和城市人更多。

此外，我们知道很多Twitter账户都是自动程序，称为“机器人”程序、假账户或“半机器人”系统(即由机器人程序辅助的人工控制的账户)。最近的估计显示，可能有多达2000万个假账户。所以即使我们想踏入如何评估Twitter用户情绪的方法论雷区，我们还是要问一下这些情绪是来自真人还是自动化算法系统。

2.“大数据将使我们的城市变得更加智能和高效”

在某种程度上，是的。大数据可以提供有价值的见解来帮助改善我们的城市，但它只能帮助我们。由于数据在生成或收集的过程中并不都是平等的，因此在大型数据集中存在一个“信号问题”——即一些人和社区被忽略或没有被完全代表，这就是所谓的数据暗区或阴影区。因此，大数据在城市规划中的应用很大程度上取决于市政官员对数据及其局限性的理解。

例如，波士顿的StreetBump应用程序是一种低成本收集信息的聪明方法。该程序从驶过坑洼的司机的智能手机上收集数据。更多类似的应用正在出现。然而，如果城市开始只依赖智能手机用户的信息，那么这些公民只是一个自我选择的样本——这必然会导致智能手机用户较少的社区缺乏数据，这些社区通常包括老年人和不那么富裕的公民。

尽管波士顿的新城市机械办公室做出了许多努力来弥补这些潜在的数据缺陷，但不太负责任的公职人员可能会错过这些补救措施，最终得到不平衡的数据，从而进一步加剧现有的社会不公。人们只要回顾一下2012高估年度流感发病率的“谷歌流感趋势”，就能意识到依赖有缺陷的大数据可能对公共服务和公共政策产生的影响。

在网上公布政府数据的“开放政府”项目也是如此，如Data.gov网站和白宫开放政府项目。更多的数据可能不会改善政府的任何职能，包括透明度和问责制，除非有一种机制让公众与公共机构保持联系，更不用说促进政府解释数据和以足够的资源做出反应的能力。这些都不容易。其实我们身边并没有多少高技能的数据科学家。大学现在争相定义这个领域，开发课程，满足市场需求。

3.“对于不同的社会群体，大数据不会厚此薄彼”几乎不是这样。对大数据客观性的另一个期望是，对少数民族的歧视会减少，因为原始数据总是不包含社会偏见，这使得分析能够在整体层面上进行，从而避免基于群体的歧视。但是，由于大数据可以对群体的不同行为做出判断，因此它们的使用通常只是为了达到一个目的——即把不同的个体归入不同的群体。例如，最近的一篇论文指出，科学家允许他们的种族偏见影响基因组的大数据研究。

大数据可能被用来进行价格歧视，从而引起严重的民权问题。这种做法在历史上曾被称为“划红线”。最近，剑桥大学对脸书的58000个“喜欢”标签进行了大数据研究，用于预测用户极其敏感的个人信息，如性取向、种族、宗教和政治观点、性格特征、智力水平、快乐与否、成瘾药物使用、父母的婚姻状况、年龄和性别。

记者汤姆？Form对这项研究的评价是:“这种容易获取且高度敏感的信息可能被雇主、房东、政府部门、教育机构和私人组织用来歧视和惩罚个人。而人没有任何手段去抗争。”

最后，考虑对执法的影响。从华盛顿到特拉华州纽卡斯尔县，警方正在转向大数据的“预测警务”模型，希望为冷案的侦破提供线索，甚至有助于预防未来的犯罪。但是，让警察专注于大数据发现的特定“热点”，有强化警察对名声不好的社会群体的怀疑，使差异化执法成为制度的危险。

正如一名警察局长在一篇文章中指出的，虽然预测性的警察登记制度没有考虑种族和性别等因素，但使用这一制度的实际结果可能“导致警察与社区的关系恶化，使公众感到缺乏司法程序，导致种族歧视的指控，并威胁到警察的合法性”。

4.“大数据是匿名的，所以不会侵犯我们的隐私。”

大错特错。虽然很多大数据的提供者都想尽办法消除面向人类的数据集中的个体身份，但是身份重新确认的风险还是很大的。手机数据可能看起来相当匿名，但最近一项对欧洲654.38+0.5万手机用户数据集的研究表明，只需要4个参考因素就可以逐一确认其中95%的人的身份。

研究人员指出，人们在城市中走的道路是独特的，鉴于可以从大量公共数据集推断出大量信息，个人隐私已经成为一个“日益严重的问题”。

然而，大数据的隐私问题远远超出了常规身份确认风险的范畴。目前出售给分析公司的医疗数据可能会用于追踪您的身份。现在有很多关于个性化医疗的谈论，人们希望未来可以为个人开发药物和其他疗法，就好像这些药物和疗法是由患者自己的DNA制成的一样。

就提高药物疗效而言，这是一个美好的前景，但本质上取决于个人在分子和基因层面的认同。这些信息一旦被不当使用或泄露，就会带来极大的风险。虽然RunKeeper、Nike+等个人健康数据采集应用发展迅速，但在实践中用大数据改善医疗服务仍只是愿望，而非现实。

高度个性化的大型数据集将成为黑客或泄密者的主要目标。维基解密一直处于近年来几起最严重的大数据泄露事件的中心。从英国离岸金融行业大规模数据泄露事件中我们看到，和所有人一样，世界上最富有的1%人口的个人信息也很容易被泄露。

5.“大数据是科学的未来”

有一部分是真的，但是需要一些成长。大数据为科学提供了新的途径。我们只需要看看希格斯玻色子的发现，它是历史上最大的网格计算项目的产物。在这个项目中，CERN使用Hadoop分布式文件系统来管理所有数据。但是，除非我们认识到并开始解决大数据在反映人类生活方面的一些固有缺点，否则我们可能会基于错误的偏见制定重大的公共政策和商业决策。

为了解决这个问题，数据科学家开始与社会科学家合作。随着时间的推移，这将意味着找到一种新的方法来将大数据战略与小数据研究相结合。这将远远超出广告行业或营销行业所采用的做法，如中央小组或A/B测试(即向用户展示两个版本的设计或结果，以确定哪个版本更好)。

确切地说，新的混合方法将询问人们为什么做某事，而不是仅仅统计某事的频率。这意味着除了信息检索和机器学习，我们还将使用社会学分析和对民族学的深入了解。

科技公司早就意识到，社会科学家可以帮助他们更深入地理解人们与他们的产品发生关系的方式和原因。例如，施乐公司的研究中心聘请了先驱人类学家露西？苏克曼。下一阶段将进一步丰富计算机科学家、统计学家和多种社会科学家之间的合作——不仅要检验他们自己的研究成果，还要以更严格的态度提出完全不同种类的问题。

考虑到每天都会收集大量关于我们的信息，包括脸书点击量、全球定位系统(GPS)数据、医疗处方和网飞预订列表，我们必须决定将这些信息委托给谁以及用于什么目的。

我们无法回避的事实是，数据绝不是中立的，保持匿名是很难的。然而，我们可以利用跨越不同领域的专业知识，以便更好地识别偏见、缺陷和偏见。

以上是边肖为您分享的关于大数据深度分析革命性前景的相关内容。更多信息可以关注全球常春藤分享更多干货。