北极星智能电网在线讯:最近关于大数据应用的讨论比较热门,但什么是“大数据”?很遗憾没有公认的、标准量化的定义。就好像“大时代”一样,不知道要发生过什么才能称之为“大时代”。亚马逊网络服务专家、大数据科学家约翰•劳赛尔提到一个简单的定义:大数据就是任何超过了一台计算机处理能力的庞大数据量。基本上大数据的量已经是超过了TB级别上升到PB级别了。要处理这么庞大的数据,必须有相应的、聚合多人的大智慧。
为什么我们需要大数据?
首先设想这样一个情景,10年前和现在,当你在思考一个难题的解决方案,会有怎么样不同的方式?如果在10年前,你会去翻书,会历经百般周折问专家,又或者不知所措。但是现在,你只需要通过一个神奇的工具来作为核心达到这个目的——网络和背后的数据。
这说明我们进入了一个时代:这个时代绝对不缺乏技术,不缺乏专家,多的是善于研究发现的人。网络的产生,让无数的专业和业余爱好者在主动的传播着自己的知识和技术,也同时留下了自身的很多行为信息。这些信息零零散散。如果设想我们可以把这些信息组合起来,他们不就是每一种技术、每一个人、每一个事物的DNA和血液吗,如果掌握了DNA,我们不就能掌握这个人/技术/事物了吗?这个想法放在过去,实际操作中我们是无法实现的,因为信息每天在产生,无法采集,再说我们也没有那么多科学家去处理和分析这些数据。但是,当我们进入了科学发展的第四个阶段——资料时代,这个想法依赖科技的进一步变革,将被实现。
第四阶段的说法是由资料库专家詹姆士•格雷提出的,他曾经获得过有“电脑界诺贝尔奖”之称的图灵奖。他在个人传记中写到:“科学发展已经走过了‘实验、理论、计算’三个阶段,而进入了第四个以‘资料’为重点的阶段。过去几十年来是计算科学大行其道的时代,各种重要的数据库技术和算法,都在过去几十年渐渐成熟;而现在由于全世界物联化(instrument-ed)以及互连化(inter-connected)的关系,让全世界的资料在任何领域都以非常快的速度在累积,而且累积的速度远远超过现在所有企业所能处理的速度。由于资料累积的量和速度都是前所未见,而且其中的确蕴含宝贵的信息金矿,因此在科学研究或是其他各种领域,大家都转而以资料分析来为科学研究或是企业组织提供发展方向、寻求突破。”资料的全面分析,给我们所想要了解的事物一个全貌的解释。
当然,“通过数据了解某个人或者技术或者事物”,这样的想法还不能驱使微软、IBM、高盛等等这样的全球领衔的以商业至上的企业大肆为其摇旗呐喊。他们真正感兴趣的,是大数据时代下,依托云计算的计算机通过解析人/技术/事物的过去和现在的特质,所能实现的对未来的“预测功能”。比如谷歌公司根据用户数据分析,成功预测四项奥斯卡大奖。仅仅拥有单一数据渠道来源(也就是只有本公司的)的百度、谷歌、基金公司、Twitter等通过数据已经实现了震撼我们的预测,那么当我们努力实现让所有类型的数据都整合在一起,交给计算机,他将带来多大的小宇宙力量!那么关于人类的国家资源调配、商业活动趋势、自然灾害预测……所有问题虽然不能在短时间内完全掌握,但是可以确保的是,他一定能优化现有所有的资源,协助解决一切我们想解决的问题。背后蕴藏的,是无限的可能,不论是政治、文化、还是商业。这就是为什么一呼百应,所有企业都在呼吁的原因。数据,代表了信心,给了我们想要理解但不了解事物的信心。