[讨论] 巨量资料时代,我为什幺说统计学依然是资料分析灵魂

作者: 阅读:878 发布:2020-05-27

在资料「爆炸」的时代,巨量资料常常被寄予厚望。到底,什幺样的资料才算巨量资料,怎样才能用好巨量资料,传统统计学还有用武之地吗?清华大学统计学研究中心前不久成立,着名统计学家、哈佛大学终身教授刘军担任主任。日前,刘军做客人民日报、人民网《文化讲坛》,分享他的思考。
——编者
让巨量资料区别于资料的,是其海量积累、高增长率和多样性
什幺是资料?资料(data)在拉丁文里是「已知」的意思,在英文中的一个解释是「一组事实的集合,从中可以分析出结论」。笼统地说,凡是用某种载体记录下来的、能反映自然界和人类社会某种信息的,就可称之为资料。古人「结绳记事」,打了结的绳子就是资料。步入现代社会,信息的种类和数量越来越丰富,载体也越来越多。数字是资料,文字是资料,图像、音频、视频等都是资料。
什幺是巨量资料呢?量的增多,是人们对巨量资料的第一个认识。随着科技发展,各个领域的资料量都在迅猛增长。有研究发现,近年来,数字资料的数量每3年多就会翻一番。
巨量资料区别于资料,还在于资料的多样性。正如高德纳谘询公司研究报告指出的,资料的爆炸是三维的、立体的。所谓的三维,除了指资料量快速增大外,还指资料增长速度的加快,以及资料的多样性,即资料的来源、种类不断增加。
从资料到巨量资料,不仅是量的积累,更是质的飞跃。海量的、不同来源、不同形式、包含不同信息的资料可以容易地被整合、分析,原本孤立的资料变得互相联通。这使得人们通过资料分析,能发现小资料时代很难发现的新知识,创造新的价值。
通过资料来研究规律、发现规律,贯穿了人类社会发展的始终。人类科学发展史上的不少进步都和资料採集分析直接相关,例如现代医学流行病学的开端。伦敦1854年发生了大规模的霍乱,很长时间没有办法控制。一位医师用标点地图的方法研究了当地水井分布和霍乱患者分布之间的关係,发现有一口水井周围,霍乱患病率明显较高,藉此找到了霍乱暴发的原因:一口被污染的水井。关闭这口水井之后,霍乱的发病率明显下降。这种方法,充分展示了资料的力量。
本质上说,许多科学活动都是资料挖掘,不是从预先设定好的理论或者原理出发,通过演绎来研究问题,而是从资料本身出发通过归纳来总结规律。近现代以来,随着我们面临的问题变得越来越複杂,通过演绎的方式来研究问题常常变得很困难。这就使得资料归纳的方法变得越来越重要,资料的重要性也越发凸显出来。
巨量资料是非竞争性资源,有助于政府科学决策、商家精準营销
巨量资料时代,资料的重要作用更加凸显,许多国家都把巨量资料提升到国家战略的高度。
政府合理利用巨量资料,引导决策的将是基于实证的事实,政府会更有预见性、更加负责、更加开放。中国古代治国就已经有重资料的思想,如商鞅提出,「强国知十三数……欲强国,不知国十三数,地虽利,民虽众,国愈弱至削」。巨量资料时代,循「数」治国将更加有效。小资料时代,政府做决策更多依凭经验和局部资料,难免头痛医头、脚痛医脚。比如,交通堵塞就多修路。巨量资料时代,政府做决策能够从粗放型转向集约型。路堵了,利用巨量资料分析,可以得知哪一时间、哪一地段最容易堵,或在这一地段附近多修路,或提前预警引导居民合理安排出行,实现对交通流的最佳配置和控制,改善交通。
对于商家来说,巨量资料使精準营销成为可能。一个有趣的故事,是沃尔玛超市的「啤酒、尿布」现象。沃尔玛超市分析销售资料时发现,顾客消费单上和尿布一起出现次数最多的商品,竟然是啤酒。跟蹤调查后发现,有不少年轻爸爸会在买尿布时,顺便买些啤酒喝。沃尔玛发现这一规律后,搭配促销啤酒、尿布,销量大幅增加。巨量资料时代,每个人都会「自发地」提供资料。我们的各种行为,如点击网页、使用手机、刷卡消费、观看电视、坐地铁出行、驾驶汽车,都会生成资料并被记录下来,我们的性别、职业、喜好、消费能力等信息,都会被商家从中挖掘出来,以分析商机。
巨量资料也将使个人受益。从生物学、医学上讲,以前生物学家只是通过对单个或几个基因的操控来观察其对生物体的影响,很难发现整体的关联。现在由于技术的发展,可以分析很多,如遗传信息、全体基因的表达量信息、蛋白质族谱信息、全基因组甲基化信息、表观遗传信息等。同时还有个人健康指标、病历、药物反应等资料。如果真能达成生物学上多维多向资料的有机融合,就能够把个人完整地描述出来,从而实现精準医疗的目的。
巨量资料时代,审核资料的真实性也有了更有效的手段。巨量资料的特徵之一是多样性,不同来源、不同维度的资料之间存在一定的关联度,可以交叉验证。例如,某地的工业产值虚报了一倍,但用电量和能耗却没有达到相应的规模。这就是资料异常,很容易被系统识别出来。发现异常后,相关部门再进行複核,就能更有针对性地防止、打击资料造假。
资料是一种资源,但资料又跟煤、石油等物质性资源不一样。物质性资源不可再生,你用多了,别人就用少了,因而很难共享。资料可以重複使用、不断产生新的价值。巨量资料资源的使用是非恶性竞争的,共享的前提下,更能够製造双赢。从另一个角度来说,资料如果不被融合、联繫在一起,也不能称之为巨量资料。
巨量资料不能被直接拿来使用,统计学依然是资料分析的灵魂
现在社会上有一种流行的说法,认为在巨量资料时代,「样本=全体」,人们得到的不是抽样资料而是全资料,因而只需要简单地数一数就可以下结论了,複杂的统计学方法可以不再需要了。
在我看来,这种观点非常错误。首先,巨量资料告知信息但不解释信息。打个比方说,巨量资料是「原油」而不是「汽油」,不能被直接拿来使用。就像股票市场,即使把所有的资料都公布出来,不懂的人依然不知道资料代表的信息。巨量资料时代,统计学依然是资料分析的灵魂。正如加州大学伯克利分校迈克尔•乔丹教授指出的,「没有系统的资料科学作为指导的巨量资料研究,就如同不利用工程科学的知识来建造桥樑,很多桥樑可能会坍塌,并带来严重的后果。」
其次,全资料的概念本身很难经得起推敲。全资料,顾名思义就是全部资料。这在某些特定的场合对于某些特定的问题确实可能实现。比如,要比较清华、北大两校同学数学能力整体上哪个更强,可以收集到两校同学高考时的数学成绩作为研究的资料对象。从某种意义上说,这是全资料。但是,并不是说我们有了这个全资料就能很好地回答问题。
一方面,这个资料虽然是全资料,但仍然具有不确定性。入校时的数学成绩并不一定完全代表学生的数学能力。假如让所有同学重新参加一次高考,几乎每个同学都会有一个新的成绩。分别用这两组全资料去做分析,结论就可能发生变化。另一方面,事物在不断地发展和变化,同学入校时的成绩并不能够代表现在的能力。全体同学的高考成绩资料,仅对于那次考试而言是全资料。「全」是有边界的,超出了边界就不再是全知全能了。事物的发展充满了不确定性,而统计学,既研究如何从资料中把信息和规律提取出来,找出最优化的方案;也研究如何把资料当中的不确定性量化出来。
所以说,在巨量资料时代,资料分析的很多根本性问题和小资料时代并没有本质区别。当然,巨量资料的特点,确实对资料分析提出了全新挑战。例如,许多传统统计方法应用到巨量资料上,巨大计算量和存储量往往使其难以承受;对结构複杂、来源多样的资料,如何建立有效的统计学模型也需要新的探索和尝试。对于新时代的资料科学而言,这些挑战也同时意味着巨大的机遇,有可能会产生新的思想、方法和技术。

4500+企业选择FineReport报表与 BI 商业智慧工具【免费下载】
opensource开发,类excel设计,全方位异质资料库整合,资料填报、Flash列印、权限控制、行动应用、客制化、交互分析、报表协同作业管理系统。
分享自:数盟

上一篇: 下一篇:

相关阅读

推荐文章