摘要:本文通过江阴市大数据中心对各机构集聚的数据通过以质量测评为切入的数据治理,初步探索了大数据中心在数据治理中的数据认责问题,为下一步开展全面治理与发挥大数据中心的数据服务职责提出了一种可行的管理途径。
一、引言
各地大数据中心建立,实现了不同机构间的数据聚集,但各多源异构系统来的数据质量不一、管控与互操作难等就成为痛点与难点浮现出来。解决之道虽在数据治理,但面对不同机构、领域、业务与应用的差异,涉及一系列纷繁复杂的问题时,仍使许多大数据中心难找准切入点。
江阴市大数据中心从实际出发,通过近一年的探索与实践,以数据质量测评为切入点开展数据治理,取得了一些经验,同时对密切相关的数据认责领域也有了一些初步的思考与认识。
二、江阴政务数据治理的难题
2017年,江阴作为江苏省唯一的集成改革示范县级市,市委、市政府提出了构建“1中心+3平台”的智慧城市总体框架。“1中心”即“江阴市大数据中心建设项目”,并将数据共享和应用支撑列入集成改革重点项目。江阴市成立大数据管理专职机构,以综合改革之力,聚系统集成之效,召开多次推进会议,截止2018年底,江阴市大数据中心已完成了对全市市委、政府部门(全覆盖)、群众团体、部分驻澄单位国资公司等机构信息资源目录的多批次采集, 累计梳理全市61个机构的信息资源,1205个数据集,2.69万余个有效数据项;其中主要接入公安、人社、卫计、教育、环保、安监等61个单位632个数据集,1.25万个数据项,总数据量达10.78亿余条,对推动政务信息资源共享工作的制度化和规范化,实施网格化、政务服务、“最江阴”便民体系、精准救助、税收征管等近20个领域提供数据支撑上发挥了作用。
然而,电子政务对数据“聚、通、用”的应用需求,使机构间数据质量不清、语义与格式不一致、业务支持乏力等问题凸显出来。我们意识到:在当数据集聚到一定体量、数据源增多、面对日趋深入的服务和构建新业务之需时,必须进行数据治理。但大数据中心面对的是各机构、跨系统归集的数据;它不像各机构一样只关心具体的条线业务,而要面向全局对政务数据资源负责。因此,弄清大数据中心特殊的数据治理内涵,其范围与边界,切入点与后续延伸等问题,就是当下各地大数据中心面临的一道紧迫的难题。
三、江阴大数据治理的思路
江阴市大数据中心从数据治理理念、治理架构、要素选择、量化测评等方面进行了系统化的探索,并委托富有数据治理经验的第三方参与测评,取得一定实效,具体如下:
(1) 明确数据治理理念
“数据治理”是泊来词,“治理”英文为“governance”含义为“统治、管理、治理、统治方式、管理方式”等。govern-ance与govern-ment(政府)一词同根,可见,数据治理的本义是针对数据的行政与管理活动,政务数据治理就是对数据的统治、治理及对应措施,但其前提是要摸清数据家底、供需范围与质量水平。
(2)选择数据治理体系
大数据中心作为各机构的资源枢纽,要在多源多向、异形异构的资源环境中开始数据治理,是个复杂问题,为此,要依据权威系统架构来作为治理的内容依据。国际数据管理协会DAMA International给出的典型数据治理模式如图1。
图1中左侧为数据治理的主要内容,右侧为数据治理的基本环境。结合大数据中心职能,将数据治理的系统内容分解如下:
(1) 数据架构管理---梳理与描述数据中心的数据供需与责任架构;(2) 数据开发---数据中心面向新业务与新应用的数据分析、设计、实施、测试、部署、维护等工作;(3) 数据操作管理---覆盖数据采集、归集、比对与清洗到数据删除的作业与管理责任;(4) 数据安全管理---确保政务应用各环节中,机构与公众的数据保密性、公民交流、访问和管理权限的控制等;(5) 参考数据和主数据管理---管理政务系统中各机构元数据、实体数据、描述数据、代码数据和关联数据等的各种版本与升级;(6) 数据仓库和BI---在多功能应用环境下,实现智慧政务的资源呈现、多维报告和分析等;(7) 数据质量管理---从全局出发,定义、梳理、监控和提高从不同机构、不同系统来源的数据资源的质量与责任;(8) 元数据管理---对源于不同机构、系统与应用的元数据/数据元进行统一梳理、规范化处理、整合、组配与控制等;(9) 文档和内容管理---从语义、主题内容等方面管理各类业务表单、作业文本、报告及其他结构化与非结构化数据等。
图1 数据治理系统总体架构
(3)确认数据治理范围
数据治理环境涉及以下因素,包括:(1) 治理目标和原则---要定义数据治理中涉及的每项职能的愿景与战略目标,各项具体目标,实施绩效与基本原则;(2) 治理活动---各项治理作业能细分为下级活动,并进一步分解为具体的任务和步骤,数据间的依赖关系,顺序和流程,用例与场景,触发事件等;(3) 主要交付物---治理后的成果包括各类元数据/数据元,合成数据项,实体数据,分类代码体系,输入与输出对象,乃至各项管理体系;(4) 角色和职责---大数据中心,各职能机构,社会公众与企业事业单位等在政务活动供需中运行、加工、控制与管理的多种职能,个体的角色,组织角色,业务与资源角色等;(5) 实践和方法---大数据中心及各职能机构在资源提供、加工与处理运行中均涉及深度不等的治理实践,并有一些可共享与互操作的方法,具体涉及通用方法与可选方法等;(6) 治理技术---数据治理涉及各类治理工具,如资源标准和加工规程,比对与清洗规则,质量控制与验证规程等;(7) 组织和文化---电子政务的运行不仅涉及技术,还有理念、体制、机制、管理、价值与态度等方面的问题。
(4)找准数据治理的切入点
图1表明,数据治理是个领域宽广、内涵深且要求高的“认知+资源+技术+管理”的综合体系,对于刚成立不久且仍在资源归集中的大数据中心,要想按此架构开展全面数据治理是不实现的。于是,我们本着先易后难、先局部后全面、先单一再复合的原则,从上述9项要素中首先选择数据质量测评为治理切入点,以期了解当前聚集数据的质量,包括各机构提供的数据实用性、体量、重用性与资源贡献率等;从中寻找薄弱环节,按跨系统数据整合,构建业务应用的角度出发,突破边界,设计指标,摸清存量数据,探索增量全局性数据质量改进的治理方向。
(5)数据质量测评实施方案
(1) 统一数据质量认识
开展数据质量测评必先了解其内涵。依据ISO 8402,质量是反映实体满足明确或隐含需要能力的特性总和,而政务数据质量,一指其必须满足规定或潜在的单一政府机构业务需求,二指其满足“三融五跨”的数据共享、互操作与业务发展。
(2) 构建数据质量测评标准
本次测评在《GB/T 36344-2018信息技术数据质量评价指标》的基础上,根据实际出发构建相应的指标体系(如图2)。
测评指标的定义与说明
(1) 完整性---依据《GB/T 36344-2018信息技术数据质量评价指标》定义与专业标准比对。计算公式如下:
完整性=数量完整性+横向(某县级市)完整性+纵向(某地级市)完整性
(2) 实用性---依据专业领域数据项去冗后的实用项,及对江阴大数据中心已归集的各单位实体数据的共享交换情况进行分析。计算公式如下:
实用性=数据项实用性+实体数据共享交换量
数据项实用性=提供数据项总数-冗余数据项
(3) 冗余度---数据项冗余度的计算公式如下:
冗余度=冗余数据项/提供数据项总数(含冗余)
其中,冗余数据项=提供数据项总数(含冗余)-去冗数据项
(4) 贡献度---资源贡献度的计算公式如下:
贡献度=各单位提供数据项(含冗余)/全部单位提供数据项总数(含冗余)
(5) 公共数据元采用度---公共数据元参考《GB/T 19488.2-2008电子政务数据元第2部分:公共数据元目录》计算公式如下:
公共数据元采用度=公共数据元总数(含冗余)/提供数据项总数(含冗余)。
(6) 规范性---依据《GB/T 36344-2018信息技术数据质量评价指标》定义并与专业标准比对。
对江阴大数据中心已归集的各单位信息资源与其机构职能进行分析比对,以定性判断计算得分,定量评判应以各单位实地调研结果为准。
(7) 时效性---依据《GB/T 36344-2018信息技术数据质量评价指标》定义并与专业标准比对。按日、月、年、不定期等八类更新周期,进行分类计算。
计算公式:TL=D/(Tn×C)
其中TL=时效性;D=未变化总天数;Tn=更新周期(可变);C=信息资源个数。
(8) 空项率---反应江阴各单位在数据归集过程中实体数据的缺失情况。
计算公式:空项率= (空白数据项/数据项总数) ×100%
质量测评成果
本次质量测评按照先数量,后质量;先数据架构,后单项数据;先数据项,后实体数据的原则,采用定量与定性结合、专项与关联分析结合、现场观察与后台对标相结合等方法,按提供数据的规范性、完整性和实用性为核心,综合考虑其与外部资源的共享性与组合性作质量测评分级。
根据上述8项指标,通过对全市61个单位、632个数据集、12102个数据项、10.78亿实体数据的实地梳理和测评,形成《全面数据质量测评等级评价表》,将评价结果分为极欠缺、不充分、基本充分、充分、充分且规范共5个等级。其中,充分且规范的单位有16个,占比26%。此域的数据将作为测试试点,进一步分析其质量。
试点选取具有行业代表性的机构(如教育局),以及机构职能改革后变动较大的部门(如市场监督管理局) 等开展数据治理。具体实施仍依标准进行:建立元数据指标库对数据项进行其他指标的测评;对实体数据则采用抽样比对、清洗、转换、形成试点治理数据库等。
图2 江阴大数据中心的数据质量测评框架
四、数据认责问题
(1)问题的浮现
数据质量测评使大数据中心对各机构提供数据的完整性、实用性、贡献度、规范性等有了初步了解,随后就要从数据资产管理角度,对各机构的数据责任与权力、贡献与共享等进行评估,这就属于数据认责范畴了。
数据认责是从全局角度,对各机构的数据进行管理职责的分解与认定,明确彼此间的资源供需边界及协作机制,以建立稳定规范的数据治理体系;如责任与边界不清往往造成多头管理或“三不管”的情况,直接影响政务服务的效率与绩效。对于大数据中心,如不开展认责,则相关职责也就将由自己一肩承担,很快就会感觉“带不动”,举步维艰。面对各渠道来的资源,如“数据含义是什么”“数据质量如何”“谁能提供权威数据”“哪些数据可归并”等问题均无法肯定回答。这实际上是能力与责任的不对称,需要针对“聚、通、用”对数据管理职责重新认定与分配。
(2)数据认责内容
数据管理覆盖数据生存周期各环节,数据责任同样对应存在于每一项数据管理和应用之中,应由各机构的数据提供者、业务认责方、操作认责方以及技术认责方等角色分担。具体认责如下:
(1) 对政务数据提供者:主要负责制定数据管控政策,维护数据供应目录并分配数据认责权限;(2) 对业务主导方:主要负责明确数据定义,制定数据标准、质量规则、安全规则并监控相关数据问题,同时也是对应数据的责任主体;(3) 对操作认责方:主要负责执行数据管理规则,录入各项数据并解决相关数据问题;(4) 对技术认责方,主要负责为数据管理提供技术支持,推动数据架构、标准和规则等内容的落地。
(3)如何开展数据认责
在数据质量测评的基础上,我们将首先梳理认责数据项,即对哪些数据进行认责管理。政务数据归集了成千上万的数据项,对认责来说数量巨大,也意味着工作量巨大,不可能一蹴而就,需要分批次进行。同时,从电子政务效用出发,人们会对数据认责抱以价值期望。因此,在认责数据项的梳理和筛选上可采用“问题+价值”双驱动的策略,即优先对问题多发且业务影响较大的数据项开展认责管理,通过责任落实改善提升数据质量,从而控制和解决问题,支撑业务发挥价值。为此,将通过数据治理建立一套数据问题的归集、分析和管控机制,以及高业务价值核心数据项的识别方法。
其次将梳理认责关系矩阵,即数据各项责任与机构、岗位、人员间的对应关系。而后,将相关数据责任落实到对应岗位人员的日常工作和数据操作中。数据责任的落实通常可以与数据质量整治工作结合进行,在明确岗位人员数据责任的同时,同步明确责任落实要求,例如数据录入责任与数据项录入规范的同步执行,通过规范录入行为以及纠正录入错误强化责任意识。
五、进一步数据治理的思考
本次数据治理虽取得了一定成果,但对图1的9环节治理要素,毕竟目前只是从其中之一切入的。下一步仍不能全面展开,而要结合数据质量管理+数据认责形成双轮驱动的治理机制。除大数据中心将统一建立与维护公共数据元池,对各单位的公用数据元与实体数据进行统一转换映射,提升其标准化与质量水平外,还要开展相应的认责机制建设。具体思路是:(1) 定角色,划职责;(2) 建机制,定规范;(3) 构建数据责任管理网络;(4) 推进相应的组织与文化变革等。
综之,数据治理项目不单单是搭建一个集团级的平台,而是一项长期而复杂的工程,涉及到数据管理体系、数据标准、数据治理、数据质量和认责、相关系统升级改造、数据清洗等多个方面。项目建设依据快速见效、急用先建的思路,先整体规划,以数据模型和数据标准为基础,以数据治理管理平台为载体,并开展数据治理专项工作,确保数据治理项目的成功,为实现有效的数据资源整合夯实基础。微信公众号:电子政务智库
作者:江阴市大数据中心 金海峰 董菊香 李春香
来源:《中国建设信息化》2019年第16期
免责声明:本文转自网络公开渠道,旨在为广大用户提供最新最全的信息,电子政务智库不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。抄袭本文至其它渠道者引发的一切纠纷与本平台无关。
推荐
责任编辑: