当前位置: 首页 > 技术与资源 > 技术分享 > 正文

数据治理与大数据

2015-06-26 17:31:09

专家简介:李剑杰,新炬网络架构师,资深数据资产管理、大数据专家,10年数据资产管理经验,曾参与多个移动、联通、银行、烟草数据资产管理项目,对数据资产有丰富的项目规划管理、落地实施经验。


随着企业信息化发展,数据蕴含的价值日益得到重视,数据资源逐渐成为企业的战略资产,为企业的经营决策提高高效的支撑。而有效的数据治理,是数据资产形成的必要条件,是数据发挥价值的重要基础。


大数据时代的到来,让数据价值的探索加速进行。各大行业的数据中心、大数据平台的蓬勃落地开展,让数据从广度和深度上,都得到了大力拓展。在这以数据为主导的游戏规则里,数据质量是避不开的话题,数据治理的身影,贯穿其中。林家翘老先生也说过一句经典的话:Garbage in Garbage out。数据质量无法保证,那么通过数据得到的结论,也是缺乏说服力的。而数据治理,是保证数据质量的必然手段。


一、数据治理基础体系

数据治理不是一个新概念,相反,是一个有点老的概念了。数据治理是一个治理和管控相结合的工程,先治理,后管控。这个和实际的IT工程建设过程刚好是一个逆向的过程。这是因为实际建设中,往往存在先快速建设,迅速满足业务需求,再处理建设运营中存在的问题。尽管不是很合理,确实现实情况。


这里我们来看一下数据治理中几个重要的概念:


· 数据治理

根据《DAMA数据管理知识体系指南》一书给出的定义:数据治理是对数据资产管理行使权力和控制的活动集合(规划、监控和执行)。数据治理的职能是指导其他数据管理职能如何执行。数据治理着重于交付可信、安全的信息,为制定明智的业务决策、有效的业务流程并优化利益相关方交互提供支持。因此,数据治理本身并非是结果,而仅仅是方法:即通过数据治理来支持最关键的业务目标。


·  数据标准

数据标准没有一个通用的行业定义,简单来说,就是按一定格式和规则统一数据的规定。在数据治理领域里,数据标准可以涵盖技术、业务、管理等方面的数据,对数据对象的命名、格式、规则、标准等,制定统一的要求,贯穿设计、开发、运营、维护全流程,提供指导和标准,提高效率,降低沟通成本。

数据标准可以通过元数据系统来进行落地并丰富,对IT系统建设提供更广的支撑和协助。


·  元数据

元数据,经典定义:描述数据的数据,对数据及信息资源的描述性信息。元数据包含的范围很广,基本上所有的数据都有元数据,都需要进行描述、定义。在数据仓库领域,元数据一般分为技术元数据、业务元数据、管理元数据:


Ø  技术元数据:主要包括数据源、ETL过程、数据仓库、运行环境、质量规则等,描述技术过程里的对象、规则。


Ø 业务元数据:主要包括业务术语、业务规则、业务描述、业务指标等,描述业务过程里的对象,清晰口径。


Ø 管理元数据:主要包括流程、制度、人员、分工等,描述管理过程里的对象,对管理资源进行描述。


基于元数据对象和关系的有效管理,元数据可以提供经典的分析能力,如血缘分析、影响分析等。但遗憾的是,在实际系统建设过程中,元数据往往无法介入数据生产、处理、运营过程,沦为一个单纯的元数据存储库,大大削弱了元数据的能力。只有以元数据为基础进行建设,以元数据驱动理念为指导,才能真正发挥元数据的能力,体现元数据的价值。

 

·  数据质量

数据是组织最具价值的资产之一。企业的数据质量与业务绩效之间存在着直接联系,高质量的数据可以使公司保持竞争力并在经济动荡时期立于不败之地。在数据仓库过程中,数据质量一般会从三个层面上来进行:


Ø  数据采集层面:在数据采集时,探查数据内容、结构,保障采集数据的合法、有效。


Ø  数据处理层面:将数据质量规则构建到数据集成过程中,对数据处理全过程进行监控,保障数据质量。


Ø  业务应用层面:设计和实施数据质量业务规则,对照目标,监测业务应用数据质量。


二、数据治理与大数据

大数据时代的到来,数据分析能力的发展,数据分析也从原来的掘金块模式切换到淘金沙模式,对数据的要求日益。大数据时代,需要大数据治理。大数据治理涉及人员、流程和软件,大数据需要去伪存真,需要删繁就简,需要化大为小,下面我们从以下几个角度来看一下大数据时代,为何更需要数据治理。


· 数据量大、多样,对数据的管控力度要求更大

数据量的暴涨,数据类型的多样,随之而来的是数据的存储空间占用更大,对数据生命周期的管理要求更高,对数据模型的管控也会比以往更加严格。在系统建设前期不引入数据治理理念,系统将会快速走向失控。


· 架构复杂,对数据的管理能力要求更高

大数据的发展,与以往传统的以关系型数据库为主的架构相比,大数据架构多采用混搭模式,技术架构要复杂得多,Hadoop、Spark、MPP、RDBMS并存交杂互联。如何在这么复杂的架构体系下,对数据进行有效管理,显然是对数据治理提出了更高的要求。


· 营销精准化,对客户画像的刻画能力要求更强

随着大数据时代的带来,数据价值的日益凸显,数据对企业的经营分析决策作用越来越大。在这股浪潮当中,数据治理是连接大数据科学和应用的桥梁,若要到达风光无限的大数据彼岸,大数据治理一定是“必修课”之一。

上一篇:数据资产管理简介
下一篇:测试数据管理平台构想