大数据的定义和特点
“大数据”概念早出现在1980年,由的未来学家阿尔文·托夫勒在其著作《第三次浪潮》中所提出。2009年美国互联网数据中心证实大数据时代的来临,而在今天,我们已经能充分感受到大数据的魅力和影响力。在过去,我们常用的存储单位是mb和gb,如今我们已经逐渐迈入pb甚至是eb的时代。关于大数据的确切定义,目前尚无统一公认的说法。比如,全球的管理咨询公司麦肯锡给出的大数据定义是:“一种到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、的数据流转、多样的数据类型和价值密度低四大特征。”除了麦肯锡提出的四大特征之外,ibm公司增加了一个真实性(veracity)特征。研究机构gartner给出的定义是:“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。”在维克托·迈尔·舍恩伯格和肯尼斯·库克耶编写的《大数据时代》中指出:“大数据是指不用传统的随机分析法(即抽样调查)这样的捷径,而是采用所有数据进行分析处理。”全球大的数据中心idc则侧重从技术角度说明其概念:“大数据处理技术代表了新一代的技术架构,这种架构通过高速获取数据并对其进行分析和挖掘,从海量且形式各异的数据源中更有效地抽取出富含价值的信息。”
综合各种观点,简单来说,所谓大数据就是现有的一般技术难以管理的大量数据的集合。比如,目前关系型数据库无法进行管理的具有复杂结构的数据,或者量太大导致查询时间超出允许范围的庞大数据。大数据技术的战略意义不仅在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键就在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。从具备“4v”特征的大量数据中挖掘出高价值知识和洞见,是各界对于大数据的一个共识。