您的位置: 首页 > 数据杂志

相亲相爱的数据:论数据血缘关系

出处: 作者: 网编:胡立群 2019-07-26

1.jpg

《洞见数据价值》一书是毕马威中国大数据团队近两年来发布的部分原创文章的合集。毕马威大数据团队自成立以来,凭借对行业的深刻认知,专注于大数据等创新技术的探索及应用,为金融业、制造业的诸多客户提供定制化的咨询服务,也协助推动公司的审计、税务等业务的创新。本刊将以连载的方式,陆续推出《洞见数据价值》,对数据挖掘感兴趣的读者,可以通过该书一窥行业门径。

年关将至,隆冬时节,笔者这里想给大家推荐一个暖心的电影,张艾嘉老师的《相爱相亲》。这部电影在我看来,主要是讲了一个等人的故事,但与《归来》不同,当“姥姥”等了几十年之后,等来却只是一副棺材,“姥爷”在有生之年,从未回去找过她。一个家族三代人的感情纠葛,并未使大家过于揪心,反而就像身边的人、身边的事一般静静的流淌。笔者观影过程中,深深的被“姥姥”的神态所吸引,想要了解“姥姥”的内心世界,从而理解她那份绵长、厚重的爱。当然,笔者作为一个的理科生,当知道“姥姥”并非是主角的“姥姥”时,脑中立刻浮现了一个家族关系图,并且进而脑补了生物遗传学的知识,比如伴X染色体遗传疾病,在这个家里传播的几率。中国人其实是非常讲究家族观念的,七大姑八大姨啥的,平时经常挂在人们的嘴边。当我们谈论家族观时,其实我们谈论的也是血缘关系,血缘关系是一个很奇妙的存在,人的身高、肤色、五官、智力都源自于血缘,甚至有研究说,人的性格也和血缘有着千丝万缕的联系。

想着这里,笔者又联想到了笔者最近的工作中。这么说来,笔者好像也没有太认真看这部电影。说到工作,笔者最近正好在参与数据治理的相关工作。其中,数据血缘分析,对数据治理工作中的数据溯源、数据价值评估、数据质量评估、数据生命周期管理都有很大的帮助。

数据血缘关系,从概念来讲,很好理解,数据的全生命周期中,数据与数据之间会形成多种多样的关系,这些关系与人类的血缘关系类似,所以被称作数据的血缘关系。从技术角度来讲,数据a通过ETL处理生成了数据b,那么,我们会说,数据a与数据b具有血缘关系。不过与人类的血缘关系略有不同,数据血缘关系还具有一些个性化的特征。

1.归属性,数据是被特定组织或个人拥有所有权的,拥有数据的组织或个人具备数据的使用权,实现营销、风险控制等目的。

2.多源性,这个特性与人类的血缘关系有本质上的差异,同一个数据可以有多个来源(即多个父亲),来源包括,数据是由多个数据加工生成,或者由多种加工方式或加工步骤生成。

3.可追溯,数据的血缘关系体现了数据的全生命周期,从数据生成到废弃的整个过程,均可追溯。

4.层次性,数据的血缘关系是具备层级关系的,就如同传统关系型数据库中,用户是级别最高的,之后依次是数据库、表、字段,他们自上而下,一个用户拥有多个数据库,一个数据库中存储着多张表,而一张表中有多个字段。他们有机地结合在一起,形成完整的数据血缘关系。

不管是结构化数据,还是非结构化数据,都具有数据血缘关系,他们的血缘关系或简单直接,或错综复杂,都是可以通过科学的方法追溯的。以某银行财务指标为例,利息净收入的计算公式为利息收入减去利息支出,而利息收入又可以拆分为对客业务利息收入、资本市场业务利息收入和其他业务利息收入,对客业务利息收入又可以细分为信贷业务利息收入和其他业务利息收入,信贷业务利息收入还可以细分为多个业务条线和业务板块的利息收入,如此细分下去,一直可以从财务指标追溯到原始业务数据,如,客户加权平均贷款利率和新发放贷款余额。数据血缘追溯不只体现在指标计算上,同样可以应用到数据集的血缘分析上。不管是数据字段、数据表,还是数据库,都有可能与其他数据集存在着血缘关系,分析血缘关系对数据质量提升有帮助的同时,对数据价值评估、数据质量评估以及后续对数据生命周期管理也有较大的帮助和提高。

从数据价值评估角度来看,通过对数据血缘关系的梳理,我们不难发现,数据的拥有者和使用者,简单的来看,在数据拥有者较少且使用者(数据需求方)较多时,数据的价值较高。在数据流转中,对最终目标数据影响较大的数据源,这部分数据源的价值相对较高。同样,更新、变化频率较高的数据源,一般情况下,也在目标数据的计算、汇总中发挥着更高的作用,那可以判断为这部分数据源具有较高的价值。

从数据质量评估角度来看,清晰的数据源和加工处理方法,可以明确每个节点数据质量的好坏。

从数据生命周期管理角度来看,数据的血缘关系有助于我们判断数据的生命周期,是数据的归档和销毁操作的参考。

考虑到数据血缘的重要性和特性,以一般来讲,我们在血缘分析时,会关注应用(系统)级、程序级、字段级三个层次间数据间的关系。比较常见的是,数据通过系统间的接口进行数据的交换和传输。例如下图,银行业务系统中的数据,由统一数据交换平台进行流转分发给传统关系型数据库和非关系型大数据平台,数据仓库和大数据平台汇总后,交流各个应用集市分析使用。其中涉及大量的数据处理和数据交换工作,我们在分析其中的血缘关系时,主要考虑以下几个方面,

1.全面性,数据处理过程实际上是程序对数据进行传递、运算演绎和归档的过程,即使归档的数据也有可能通过其他方式影响系统的结果或流转到其他系统中。为了确保数据流跟踪的连贯性,必须将整个系统集作为分析的对象。

2.静态分析法,本方法的优势是,避免受人为因素的影响,精度不受文档描述的详细程度、测试案例和抽样数据的影响,本方法基于编译原理,通过对源代码进行扫描和语法分析,以及对程序逻辑涉及的路径进行静态分析和罗列,实现对数据流转的客观反映。

3.接触感染式分析法,通过对数据传输和映射相关的程序命令进行筛选,获取关键信息,进行深度分析。

4.逻辑时序性分析法,为避免冗余信息的干扰,根据程序处理流程,将与数据库、文件、通信接口数据字段没有直接关系的传递和映射的间接过程和程序中间变量,转换为数据库、文件、通信接口数据字段之间的直接传递和映射。

5.及时性,为了确保数据字段关联关系信息的可用和及时,必须确保查询版本更新与数据字段关联信息的同步,在整个系统范围内做到“所见即所得”。

笔者希望以此抛砖引玉,提高大家对数据血缘分析的重视,数据治理工作离不开数据血缘分析的工作,数据的血缘对于分析数据、跟踪数据的动态演化、衡量数据的可信度、保证数据的质量具有重要的意义,值得我们深入探讨研究。

(参考文献:《面向数据字段的血缘关系分析》,作者:中国工商银行软件开发中心高级专家李旭风开发中心罗强)

本网站所有内容属北京商报社有限公司,未经许可不得转载。 商报总机:010-64101978 媒体合作:010-64101871

商报地址:北京市朝阳区和平里西街21号 邮编:100013 法律顾问:北京市中同律师事务所(010-82011988)

网上有害信息举报  违法和不良信息举报电话:010-84276691 举报邮箱:bjsb@bbtnews.com.cn

ICP备案编号:京ICP备08003726号-1  京公网安备11010502045556号  互联网新闻信息服务许可证11120220001号