每代人都会遇到“数据危机”:基于当时的知识、技术和工具,还无法处理的数据。历史上,最常见的海量数据危机,是天文数据和人口数据,这些真是“天文数据”。

现代意义上的数据危机发生在19世纪中后期,当时全球工业革命蓬勃发展,全球性贸易大繁荣,而记录和管理这些商品、财富和人口信息的技术,却远远赶不上工业社会进步的步伐。最典型的是人口普查难题:美国在1880年开展的人口普查,耗时8年才完成数据汇总。

随着时间的推移,不仅人口数据处理越来越复杂,军事、科学和商业等更多领域的数据量也持续增长,通用电子计算机由此诞生,海量数据的“简单”统计处理不再是难题。

然而,计算机硬件能力以摩尔定律呈指数级增长,而软件的生产方式还很原始,生产效率相对低下,导致20世纪60年代“软件危机”爆发,业界开始将主要注意力从硬件转移到软件。这时,复杂的数据库管理软件只是软件危机的一部分。

软件危机最初定义是为了提高软件的生产效率,但后来演变成强调如何提升软件质量。软件危机主要表现在以下几个方面:超预算项目、超时开发项目、软件运行效率低下、软件质量无法保证、软件不符合客户要求、项目管理指南缺失、代码维护困难和软件从未交付等。

软件危机导致了“软件工程”的诞生,让程序员的编程从手工作业走向工程化。从20世纪70年代到90年代的20多年里,软件的每一项新技术和新实践,都会被吹捧为是解决软件危机的灵丹妙药,但事实上,所有已知的技术和实践,都只是渐进式地提升了软件生产效率或质量。

进入21世纪,“软件危机”的说法逐渐“淡出”。这不是因为导致危机的问题解决了,而是因为人们对软件危机产生了心理疲劳,并且新的危机出现了。在过去的20余年中,硬件技术、软件技术和网络技术等都在飞速发展,全球数据每年以50%的速度飞速增长,新一轮“数据危机”开始出现。

在新一轮“数据危机”下,非结构化的数据量过大,无法用现有技术尤其是关系型数据库技术工具加工处理,于是催生了“大数据”技术,其旨在从技术层面解决“能”处理海量数据的问题。目前,我们大致处于从“数据手工艺”到“数据工程”的演进中,支持全生命周期“数据运营”的技术(如DataOps、隐私计算)等尚待成熟和融合。

但是,数据产业在通过各种技术手段解决了“大”的危机后,却催生出“隐私保护”的新危机,这是个人数据的用途问题,可以称为“数据危机2.0”。没有之前大数据的成功,就不会引发今天的隐私危机。

任何一个时代都有“数据危机”。多年后,数据产业在又解决了隐私危机后,可能还会引发新的危机,迈入“数据危机3.0”时代。彼时,危机的产生可能是因为数据的生产要素化取得了巨大成功,可能数据已经成为大宗商品,大量的数据衍生品在金融市场上“量化”交易,于是引发新一轮的金融危机。20年前,引发金融危机的是互联网泡沫;或许20年后,引发金融危机的是“数据泡沫”。