1、大数据时代的数据特点 (4V)
1.1 规模性(Volume):即大数据具有相当的规模,其数据量非常巨大。数据的数量级别可划分为B 、KB 、MB 、GB 、TB 、PB 、EB 、ZB 等,而数据的数量级别为PB 级别的才能称得上是大数据。
1.2 多样性(Variety):即大数据的数据类型呈多样性。数据类型繁多,不仅包括结构化数据,也包括非结构化数据和半结构化数据。
1.3 高速性(Velocity):即处理大数据的速度越来越快,处理时要求具有时效性,因为数据和信息更新速度非常快,信息价值存在的时间非常短,必须要求在极短的时间下在海量规模的大数据中 摒除无用的信息来搜集具有价值和能够利用的信息。所以随着大数据时代的到来,搜集和提取具有价值的数据和信息必须要求高效性和短时性。
1.4 价值性(Value):从大数据的表面数据进行分析,进而得到大数据背后重要的有价值的信息,最后可以精确地理解数据背后所隐藏的现实意义。
2、大数据时代处理数据理念的改变
1.1 要全体不要抽样
1.2 要效率不要绝对精确:并不是说精确不重要,在这个注重效率和成本的时代,大数据分析的目标在于预测,要学会在瞬息万变的信息中掌握趋势,为下一刻决策提供依据。
1.3 要相关不要因果:大数据时代最大的转变就是放弃对因果关系的渴求,取而代之的是关注相关关系。相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。