专家简介:李剑杰,新炬网络架构师,资深数据资产管理、大数据专家,10年数据资产管理经验,曾参与多个移动、联通、银行、烟草数据资产管理项目,对数据资产有丰富的项目规划管理、落地实施经验。
何为大数据
大数据的概念,喧嚣社会之上也有好几年了。但具体什么是大数据,行业里也是各说不一。狭义上来讲,大数据就是巨量数据,极大量的数据。但究竟是“多大”,才叫“大数据”呢?目前,业内也是一直没一个统一的说法。其实一般来说,10T量级的数据量,就可以称之为“大”数据了。而广义上的大数据,更多是指包括数据本身在内的,一整套数据处理分析框架。纵观众多的大数据解释,小K以为,研究机构Gartner给的定义还是比较不错的,也是目前百度百科上所采用的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量的、高速增长率和多样化的信息资产。
这个定义还是比较好的,区分了纯数据量论,也比较符合实际项目落地的情况。比如一个客户终端偏好分析,如果在现有数据、分析模型上,已经可以有99%的机会准确分析出来,那再另外增加大量的数据去分析,这是毫无意义的,甚至由于噪音数据的增加,准确率更低也是有可能的,这种情况就不应该归入大数据的范畴,用大数据的方式去处理。目标数据要重质,而不是单纯的量。
大数据平台化
大数据该怎么玩?这也是一个大家经常讨论的话题。近几年,大数据以极快的速度落地生根,后来发展的可能已经超出了它最初的含义。在数据量不断剧增,数据资产化的趋势下,大数据平台化已经成为业内比较流行的一种建设方式。大数据平台重在数据的采集、存储、处理,重在数据能力的提供上,给应用建设提供数据支撑,而不是直接面对最终用户。如下图:
大数据平台解决了在以往技术框架内,面对大量数据时难以解决的数据采集、存储、处理问题,并根据上层应用需求,提供了数据能力服务,支撑上层应用开发,满足最终用户的各类需求。
或许有朋友会问:大数据平台用什么技术建设比较好呢?是当前热门的Hadoop技术?后起之秀Spark?还是沉稳的MPP?小K觉得这又有什么关系呢?技术是为业务服务的,技术也是优劣并存的,考虑的因素不一样,技术的选型就不一样,没有最好的技术,只有最合适的场景。也许, 几年之后,又是其它新技术的天下。
小结
根据IDC的研究显示,从2005年到2012年,全球的数据量翻了27番,约达到2.5ZB,其中仅有25%的数据是有用的,仅有3%的数据贴有标签能被使用,仅有0.5%的数据被用于分析。大量的数据被闲置,被丢弃,价值被埋没。随着技术的不断发展,数据的价值日益凸显,大数据将会成为推动未来企业发展的重要引擎。BAT知道,全世界也知道。
大数据之路,任重而道远!
上一篇:持续交付现状与趋势分析
下一篇:大数据漫谈2:大数据价值点在哪里