GLDM:数字中国的“五跨”数据治理方法论

台海网 2018-07-19 15:59:02 dm

原标题:GLDM:数字中国的“五跨”数据治理方法论

【导读】在建设数字中国的过程中,全面构建政府数据治理体系是开启政务大数据之门的一把钥匙。华傲数据通过在华为生态中的积累,以在深圳龙岗等多地的实践经验为基础总结了一套GLDM方法论,规范数据治理体系的建立和数据治理融合平台的建设。

深圳华傲数据有限公司CEO 贾西贝/文

然而,在各地数据治理体系的建立和数据治理融合平台的建设中,虽然有“三融五跨”作为指导思想,仍然需要一个衔接“三融五跨”思想和落地项目实施的“五跨”数据治理方法论。华傲数据通过在华为生态中的积累,以在深圳龙岗等多地的实践经验为基础,总结了一套GLDM(Government Logical Data Model)方法论,规范数据治理体系的建立和数据治理融合平台的建设。

数据大发现时代:如何避免“哥伦布窘境”?

如果把政府中的“五跨”数据源看成是一个一个已经被发现或有待被发现,以及正在建设或将要建设的小岛和大陆(这些小岛相当一部分是“信息孤岛”),“三融五跨”的时代可类比于15世纪那个将小岛与大陆用航路连接起来、建立全球贸易的地理大发现时代,现在是一个“数据大发现”时代。在地理大发现时代,早期航海者如哥伦布,常常是“走的时候,不知道去哪儿;到的时候,不知道在哪儿;回的时候,不知道去过哪儿”。GLDM就是赋予数据大发现时代一个现代“数据航海术”,避免出现“哥伦布窘境”——在“五跨”数据治理体系建设中,开始的时候不知道能做啥、进行的时候不知道该做啥、完成的时候不知道做了啥。

具体而言,数据治理体系构建的GLDM“数据航海术”有4个要素:

Ÿ “海图”:政务信息资源目录梳理就像地理大发现时代构建海图的过程,让我们知道哪里有大陆(数据大户)、哪里有小岛(数据资源)、哪里有暗礁(敏感数据)以及哪里有冰川(难协调数据)。“五跨”特征是政务数据区别于企业数据的本质特征,由于政府是科层制的,其各级别的信息化建设无法像企业那样,由一个全国统一的IT部门统筹建设和运营,只能是各级别、各部门和各业务分头建设、自主演化、独立运营,这使得政务信息资源目录梳理成为一项最先需要开展的、必不可少的工作。这是一项混合了数据普查和业务普查的调研工作,其重点是现状调研和需求调研,包括各委办局有哪些职责和哪些业务?各业务有哪些流程和哪些系统?各业务和各系统中会产生及用到哪些数据?各委办局有哪些数据库,这些数据是如何组织的?以及各委办局在建和计划建设哪些系统、将会需要什么样的数据?

梳理过程中将会收集这些数据和数据库的产生系统和流程、数据的来源单位和存储位置、数据库类型、数据格式、数据模型、数据标准、数据更新频率以及数据接口等元信息,哪里有业务暗礁、哪里有信息孤岛等“三融五跨”的痛点和瓶颈问题在这项普查中都会被记录和刻画,最终会形成一幅城市/区域政务数据的全景图。由于各地政府职责的标准化(有三定方案、行政授权等规范政府各部门的职责),这项工作在各省、各城市和各区县之间往往有较大的相似性,GLDM正是把这些相似性提炼出来,让每一个以GLDM为方法论的政务信息资源目录梳理都站在了巨人的肩膀上。政务信息资源目录梳理的结果会录入一个元数据管理系统中,在政务数据治理体系中,这个元数据管理系统的基础功能组成了政务信息资源目录。

Ÿ “航路”:数据共享交换平台为数据大航海开辟了航路。目前国内的数据共享交换平台产品较多,理论与实践探索文章也很多,这里就不做展开了。

Ÿ “指南针”:数据标准平台、数据监管平台和数据合规平台就像指南针,让我们的数据治理体系不要走错方向,避开弯路、错路和邪路。数据治理体系的搭建就像建设一个数据工厂,工厂的输入是现状数据(源数据),输出是数据资源(基础库和主题库等)和对现状数据的质量反馈以及安全监管。

Ÿ “轮船”:数据质量治理平台和五跨数据融合平台是数据工厂的关键设备,就像数据大航海中的“轮船”,真正的“航行”将依靠这两个平台完成。数据质量治理平台就像轮船的“舵”,掌控着轮船的行进;五跨数据融合平台就像轮船的“发动机”,推动着轮船前进。

包含了这四个要素的数据治理体系,可以对元数据(信息目录)、标准化过程、质量、安全四个方面进行治理和监管,承接“三融五跨”思想,将其具象为数据的五跨标准化、五跨一致性、五跨时效性、五跨完整性和五跨实体同一性,形成体系健全、容易落地的数据目录治理、数据标准治理、数据质量治理和数据安全治理等四大治理并行开展、互相保障的全面数据治理体系。

数据标准平台:确保五跨标准化,让数据加工过程更可控

在数据大航海中,虽然我们有了海图,但海图只让我们了解了现状数据和数据需求,我们还不知道数据加工的目标在哪里?我们的目标数据是什么样的?我们仍然有陷入“哥伦布窘境”的危险。我们更为担心的是数据加工的过程不可预见且不可控,数据加工结果因人而异、因时而异、因事而异。所以,我们要为我们的目标数据(数据资源库)制定标准,这些标准越精细,数据加工过程就越可控。

现状数据往往是业务导向、应用需求驱动建模的,意味着在现状数据中我们看到的是一份一份社保缴纳和赔付记录、一个一个检验报告和病例,以及一项一项出生证明、居住登记、租房合同和户籍记录等;而目标数据则是资源导向、通用数据驱动建模的,实质上是在数据空间里建立起对客观世界的映射,手段是在数据空间里整合对城市管理服务实体的数据描述。在目标数据中我们看到的是城市中的每一个人和每一个证件、每一家企业和每一个社会组织、每一套房和每一个城市部件、每一辆车和每一条路、以及城市里发生的每一件事(事件)等等。

数据标准平台首先要解决目标数据的建模问题。包括数据编码标准、数据元标准、数据模型标准、数据存储标准、数据交换格式标准以及数据共享接口标准等。

其次,数据标准平台还要解决现状数据(源数据)的从目标到源头、逐层渐进标准化问题。由于现状系统和数据库早已建设完成,将存量数据的模型、编码、类型、字典、格式和接口等推倒重来代价巨大。而智慧城市正在建设当中,将部署一大批新的智慧应用,这将会产生大量增量数据。如果在新系统的建设过程中直接采用和目标数据兼容的源头业务数据标准,后期将会大大减少数据浪费,并节省大量数据清洗代价。所以数据标准平台需要建立通用业务数据标准和关键专用业务数据标准,并在信息化项目立项和验收过程中确保这些标准的采用。

第三,数据标准平台还要解决数据加工过程的标准化问题。由于现状数据和目标数据这两头都已经标准化,由现状数据到目标数据的加工过程也将更容易标准化,使我们可以在数据工厂中推行标准化施工,构建一个系统化、标准化和智能化的“数据炼油厂”。数据加工的过程标准包括数据清洗规则标准、数据融合流程标准以及数据质量评估标准等。通过目标、源和过程的标准化,可以确保政务大数据的处理过程不走弯路和错路、不会南辕北辙,也不会踩前人踩过的坑。数据标准化平台不仅辅助制定标准(归纳、发现和分析标准)和管理已有标准,还能够确保标准被被应用到系统设计开发中(标准的注册、发布、订阅和采纳登记)、对存量和增量数据进行标准符合性测试——利用标准发现数据中的问题(查错),以及对问题数据进行智能标准化——解决发现的问题(改错:主要是修正形式错误)。

数据监管平台与数据合规平台:确保五跨数据安全,防范数据风险

数据标准平台可以解决数据治理体系中最艰巨的标准化问题,而数据治理体系中还有另一类重要问题——安全问题。在信息资源目录梳理过程中,数据在各委办局和各业务系统中的存在被一览无遗;而作为数据安全保护主管部门(DPA:Data Protection Authorities),如何确保源数据、目标数据、数据加工和应用过程不出现安全问题?如何堵住所有的数据漏点、确保数据不会出现大意丢失、违法泄露、恶意篡改和违规商用等问题?这需要依靠数据监管平台来完成。事实上,数据的交易、运营、开放和共享都应置于有效的数据监管之下,才能健康而有序地进行,否则会在交易、运营、开放和共享中积累大量风险,并在将来随着数据立法和数据政策的明晰而随时有可能爆发。就像证券交易所需要证监会监管一样,数据交易所和数据运营公司需要DPA部门的监管,避免发展成互联网金融乱象一样的“数据乱象”。“凯撒的归凯撒、上帝的归上帝”,数据的开发利用可以用市场化的手段进行,但数据监管是政府在数据交易与运营中的底线职责,就像金融办对金融行业的监管职责、国土局对土地资源的监管职责、网信办对内容产业和舆情的监管职责一样。

欧盟有关数据监管与保护的《通用数据保护条例》(GDPR)已经在2018年5月25日生效实施,其中的“数据被遗忘权”、“数据可携带权”、“数据知情权”、“个人数据处理留痕”等要求正在对我国的互联网企业和大数据企业带来重大影响;同时,其中的“属人原则”(长臂管辖原则)和“个人信息出境原则”等也会对我国的数据主权和数据立法带来冲击,我国的数据保护立法和数据监管机构(DPA)及其监管职责的确立刻不容缓。数据监管平台可以确保数据治理体系不走错路和邪路。

除了DPA部门的数据监管平台外,各处理个人信息的企业和政府各委办局需要建设受DPA管辖、保障数据监管措施落地的数据合规平台,防控本单位数据收集、加工、处理、共享、交换、开放过程中的风险。

数据质量治理平台和五跨数据融合平台:确保五跨数据质量,防止GIGO

解决了“数据大航海”过程中的海图、航路、指南针的问题,剩下的问题就是需要一艘轮船,照着海图,沿着航路,载着数据航行到指南针指向的彼岸。这搜轮船的核心部件是“舵”(数据质量治理平台)和“发动机”(五跨数据融合平台)。这两个平台可以防止在五跨数据的复杂条件下,政务应用出现垃圾进、垃圾出(GIGO:Garbage In,Garbage Out)的“用数据还不如不用数据”的不利局面。在由源数据到目标数据的加工过程中,不仅实体会重复、格式会混乱,数据也会冲突或错误。这些错误有两种,一种是形式错误,一种是实质错误。对于形式错误,以目前的技术手段可以进行全自动化的数据清洗,但对于实质错误还不能实现完全的自动化,而且很多时候部门职责也不允许进行自动化的数据清洗,必须在源头业务系统或数据责任部门进行人工干预下的法定数据修改。但是,数据资源库的建设无法等待千千万万这样的人工干预,所以,除了自动发现错误、引入人工干预手工修正实质错误(系统会给出建议值)以及管控源数据质量的数据质量治理平台之外,还需要一个不等待人工干预、尽可能保障与提升数据质量、以最大限度和最大精准度支撑决策分析应用、确保统计意义正确的条件下后台连续不间断处理所有数据问题,并在最短时间内构建数据资源库的五跨数据融合平台。

如果说数据质量治理平台是综合运用技术手段和管理机制治理源数据质量,以及对各委办局数据共享绩效进行科学考核的平台,五跨数据融合平台则像一刻不停的数据流水线工厂,源源不断地把现状源数据提炼成目标数据资源。在GLDM方法论中,数据质量治理平台是包括探查网、标准网、质量网等3层治理网结构的数据天网体系,五跨数据融合平台则是包括历史层、标准层、原子层、整合层、集市层、应用层等6层流水线结构的数据工厂体系。

GLDM:为“数据治理中国方案”添砖加瓦

信息资源目录梳理(海图)、数据共享交换平台(航路)、数据标准平台和数据监管平台(指南针),以及数据质量治理平台和五跨数据融合平台(轮船)组成了数据大航海的GLDM五跨数据治理方法论。在华傲与华为的合作中,这个方法论已经成为知识沉淀的最佳形式,指导最佳实践,让每一个大数据中心、每一个数据治理体系的建设都站在巨人的肩膀上,避开早期城市走过的弯路和错路。作为“三融五跨”思想的实践探索,以“三融五跨”思想和GLDM方法论指导的数据中心建设正在显示出巨大的生命力。

过去30年,逻辑数据模型(LDM)在许多领域,例如金融、电信、能源和交通等,都发挥了至关重要的作用。数据仓库的领导者天睿公司(Teradata)凭借其对诸多行业LDM的掌握,成为国际上最重要的数据公司之一。但是,由于国际上还没有大规模的“三融五跨”实践,跨部门和跨业务的政务数据逻辑数据模型、即五跨LDM还是一个空白。GLDM(五跨政务逻辑数据模型)方法论的研发推出就是为了填补这项空白。GLDM通过不断总结各省/市/区/县的数据中心和数据治理体系建设经验,逐渐提升各层级数据中心和数据治理体系的建设水平。

在2017年5月的第三届数博会上,GLDM方法论获得了广泛关注,人民网、中新社、凤凰财经和贵州本地媒体进行了大量报道。华傲公司正在与更多的省级、市级和区县级大数据中心、大数据局、经信委、网信办和数字办合作,总结并分享更多的数据治理体系建设的成败经验,丰富GLDM方法论。

在2017年华为生态伙伴大会上,华傲与华为联合发布了GLDM为方法论的双华政务数据治理与融合联合解决方案,并在此之后进行了多次展示,获得了一致认可。华傲愿与各地政务数据主管部门共同探索和实践,为“数据治理中国方案”添砖加瓦。

本文相关软件

DM万用版9.57 双语标准版

DM&P(Disk Manager & Partner) ── 最强大、最通用的硬盘初始化工具。 要是有人对您说,...

更多


'); })();