全景科学 ·

大数据加剧“选择困难症”

大数据越来越热门,但对个人抉择可能提供不了帮助。

 

去年,当飓风“佛罗伦萨”和“迈克尔”接连威胁美国北卡罗来纳州的教堂山市时,我和数百万人生活在这里的人一样,面临着一个简单的选择:撤离还是留守?

数据科学是目前最热门的学科。公司不停地招收数据专业人士,书籍和网络课程也大量涌现,许多大学还设立了数据科学的学位或研究中心,这方面的课程几乎供不应求。形势这么好,我也希望处于黄金时代的数据科学能够帮我们更好地做出抉择。但奇怪的是,海量的数据反倒使我们更难抉择了,因为数据并不能轻易地转化成有用信息。随意获取的海量数据和纷繁不同的专家意见会使事情更加棘手。最后,数据测量本身也不是一个中立的过程。

比如在那两场飓风登陆的前几天,到处都能看到那个熟悉飓风分级参数,它的级别从1到5,分别对应不同的风速,边上还配了一个框定范围的“圆锥”。当处于强制撤离区以外时,是否撤离完全取决于个人意愿。管理学大师彼得·德鲁克(Peter Drucker)说过一句名言:“如果无法测量,那就无法改进。”我想再加一句:“如果真的测量,就会被数字蒙蔽。”飓风的风力强度就这么回事。风力的危害是应该重视,但是更严重的冲击往往来自洪水。“佛罗伦萨”登陆时只有1级,却在有的地方倾倒了高达1米的暴雨,这甚至包括圆锥之外的地区。

为了获得清晰的认识,我联系了当地电视台的几位气象专家,我相信他们能跳脱数字,精确地指出飓风对当地的影响。然而他们的意见往往偏重于强调风险,这既是为了评级,也是为了自保:相比于没有必要撤离时却撤离,应该撤离而不撤离的风险更大。接着我开始搜集更多数据。我在社交媒体上搜索气象专家,发现了几张精心整理的名单。乍一看这是个好办法。那些都是真正的专家。他们的评论明智而可敬,数据来源都有链接,讨论也很充分。

但是我很快想到,这和我一点也不喜欢看幕后花絮的原因类似。我知道他们有很多不同的气象模型,这些研讨十分精彩,但是当你要决定是否要把那几张非常心爱的照片打包放进行李箱时,这些知识基本没用。其中有模型预测了毁灭性的破坏,而另一个则只说会下大雨。风暴可能朝北转向,正面击中城市,也可能转到南边,越过这座城市。更糟的是,所有模型每隔六小时都会更新一次,而每次更新都会引出更多专家的讨论。

我的知识增长了不少,但当做决定时却更糊涂了。有人把这称作是“选择悖论”(paradox of choice)――选项太多,反而无从下手。当你站在超市的番茄酱货架前就有这种感觉:眼花缭乱,难以招架。有机的?非有机的?低糖的?用蜂蜜增甜的?加了人工甜味剂的?如果要加,是加三氯蔗糖还是阿斯巴甜?要低钠的吗?

好了,既然有更多数据,更先进的科学和更强大的计算,甚至可以提前几天就预测一场飓风的行进路线。为什么就没有人更好地预测飓风对某个地区的影响呢?真可惜,大范围的预测很难持续追踪,而个别地区的预测结果又存在误差范围过大的问题。这其中还有太多的假阴性和假阳性了。 

那么,我们在生活应该放弃用数据制定决策吗?答案和这个数据时代的许多事情一样,前面的道路需要我们关注数据之外的东西。我们需要开诚布公地讨论数据科学的缺陷,这样才能更精确地认识大量数据和有用信息之间的区别。我们还需要设立独立的中间机构,指导我们的认识。这些事情,光靠数据科学本身是无法做到的。

至于飓风,因为才搬到这条街上,我做了我能想到的最简单的决定:向住了很久的邻居打听。他们建议我多准备些电池。当然, 他们都没有撤离,我也就待在这里了。

撰文:柴内普·图菲克奇(Zeynep Tufekci)

翻译:红猪

参与评论