文摘:别被大数据迷住了眼睛
出处:中国计算机报 作者:记者 程彦博
不消说,大数据是现在it领域最热的词汇,而且,它的热度已经超出了it领域。
大数据,将改变企业的营销方式,精确分析客户行为;将改变企业的运营管理方式,辅助企业决策,预测风险,提升效率……
且慢。在为大数据树碑立传之前,需要先考察一下大数据所谓何物。
it领域从来都不缺概念,无论是3v还是4v的大数据属性,新概念一出,就会有人想当然地、在没有经过深入的思考和考证之前,表现出对新概念的认同。
不可否认,移动互联网、社交网络、物联网让人类社会的数据量大幅增长,然而,这就是大数据吗?在大数据的概念出现之前,就没有客户分析,没有辅助决策、风险预测吗?在大数据的概念出现之前,相对于我们的数据处理和分析能力,我们所拥有的数据就是“小数据”吗?
显然,答案是否定的。
数据挖掘和数据分析并不是新的学科,我们在这一领域拥有很多成熟的技术。笔者以为,今天所讲的大数据,正是对数据挖掘和分析的不断完善和提高,将更多的非结构化、半结构化和流数据引入数据挖掘和分析的领域,而不是另起炉灶,并为其赋予一个似是而非、含混不清的名词——大数据。
大数据能够被热烈地讨论,是因为其在精神层面上满足了人们对未知事物的好奇心,在物质层面上有hadoop、nosql这样实实在在的技术作为支持。实际上,如果能够厘清大数据的概念,把大数据定位为对传统数据挖掘和分析的提升,那么就可以很容易地认识到,hadoop、nosql并不是大数据的全部。
teradata的cto宝立明就认为,hadoop是一个非常好的、价格低廉的非结构化数据存储和管理工具。然而就像任何事情都有两面性一样,hadoop在一些数据结构稳定、需要进行整合分析的场景中并不适用,或者说有其他更好的方式,并且hadoop的开源特性会带来更高的部署成本。
归根结底,我们不应该被大数据风暴迷了眼睛。我们讨论大数据,依然是希望通过对大数据的挖掘和分析来发现数据的价值。要最终挖掘出数据价值,既要运用新的技术,也不能抛弃传统的数据挖掘和分析的技术与方法,不要对新技术盲目崇拜或者盲目排斥,而应该对其进行评估,以最优的方式将新技术与传统方式结合起来,这样才能最大限度地获得数据的价值。
就像宝立明说的那样,要尽量摈弃炒作给大数据带来的影响,让大数据回到正确的轨道上。
(责任编辑:孙悦)