降本增效,智启未来—央国企 Data+AI 数据治理实践与探索
央国企数据治理如何借助AI实现降本增效?百分点科技分享实战经验与破局之道。
核心内容:
1. 央国企数据治理面临的四大核心挑战
2. AI技术在数据治理中的创新应用方案
3. 智能治理工作流建设与落地场景案例

本次分享围绕百分点科技在央国企以Data+AI相关数据治理工作中的一些实践和落地场景展开。主要涵盖以下6个方面:
1. 时代之问:当前数据治理面临的核心挑战
2. 破局之道:成熟大语言模型与开源智能体
3. 核心架构:智能治理工作流建设
4. 场景案例:从无到有,从有到优的高质量数据
5. 价值分析:降本、增效、提质
6. 问答环节
01 时代之问:当前数据治理面临的核心挑战
聊到央国企的数据治理,眼下主要集中在四个关键挑战上。大多数企业正从信息化向数字化、甚至数智化方向同步转型,全力推进系统整合与统一建设。一方面搭建集团级的业务系统,比如采购、合同、主数据管理;另一方面也在构建数据中台,推进数据分析与可视化,并落地AI应用,如智能体、智能问答、智能报告等场景。这就意味着,当前的数据治理需求,是数字化和数智化两条链路叠加在一起产生的。
在这种大背景下,传统央国企在数据治理中主要面临四大挑战:
(1)成本高昂
目前数据治理项目基本都是百万起步,而且严重依赖外部咨询和服务厂商。更麻烦的是,如果依赖外部厂商,前期的准备工作周期就被拖得很长,比如元数据盘点、生成数据资源清单、集团数据标准宣贯等,这些都是时间黑洞。
(2)效率低下
尽管投入了相当长的周期,整体工作效率依然不高。根源在于,2025年之前的数据治理工作大多采用“手工作坊”模式,高度依赖密集的人工劳动。这种模式会引发很多问题,包括历史信息化建设遗留的元数据缺陷,以及数据标准制定后难以有效落地执行。最终的结果就是,数据治理的进度与效率已严重滞后于业务发展的实际需求。
(3)质量瓶颈
待治理的数据质量往往有严重隐患,这主要源于历史信息化建设过程中,统建系统与自建系统并行。这两种系统在数据定义层面存在天然的、系统性的偏差,导致“同名不同义”“同义不同名”这类基础性问题普遍存在。这些问题不仅直接影响当前数据分析的准确性与可靠性,更对未来计划开展的AI应用构成了根本性威胁——数据质量不牢,AI应用全是空中楼阁。
(4)价值量化
数据治理的价值量化极其困难。如何准确衡量其业务赋能效果?如何算清楚投入产出比?这是管理层极为关心并要求明确回答的问题。如果这个核心问题说不清,数据治理在央国企的落地与推广就会非常艰难。
02 破局之道:成熟大语言模型与开源智能体
从2025年起,AI数据治理主要依托两大核心能力。第一是成熟的大语言模型,它的发展已经趋于稳定,应用门槛也降下来了。这种模型可以看作全天候在线的数字劳动力,具备多模态处理能力,不仅能处理结构化数据,还能有效解析图片、文档、音频等非结构化数据。第二是通过智能体或AI工作流的方式,将大模型的能力提升到专家级水平。对于刚才提到的这几类需求,可以通过AI加BI的建设来提升业务数据分析和数据洞察效率。
在现有大模型能力的基础上,还需要一个上层的应用出口,也就是智能体开发平台。这类平台开发周期短、能力较强,比如dify就支持提示词工程、知识库调用、工具集成以及工作流构建,包括对话功能和AI开发流程。同时,开源大模型生态(如Hugging Face)已经比较成熟,再加上n8n、Make、Dify、Coze这些主流智能体平台,一起构成了AI赋能数据治理的重要基础支撑。
企业数据治理的实施严格遵循PDCA循环管理方法,通过规划、执行、检查、改进四个环节形成闭环。为了确保各环节有效衔接,需要设计16个标准化工作流来实现全流程覆盖。
规划阶段重点做两件事:一是制定企业级数据治理战略,自上而下明确治理目标和实施路径;二是开展数据资产价值评估,通过系统分析识别高价值数据资产,为后续工作提供依据。规划完成之后,重点推进元数据管理、数据标准制定、数据质量提升和数据安全保障这四大核心领域的详细设计与落地实施。
建设完成后,还需要持续跟踪实施效果并不断优化改进。引入AI工作流技术后,不仅能明显提升各环节工作效率,更能推动数据治理体系从传统的成本中心逐步转型为具有持续价值创造能力的业务支撑平台——这才是企业数字化转型的坚实保障。
03 核心架构:智能治理工作流建设
这部分是本次分享的核心,重点介绍智能数据治理工作流的构成及其运作机制。
AI赋能数据治理工作的核心架构分为四层:
- 第一层是传统的数据和设施基础层,依托现有IT资产,包括业务信息化系统、中台服务、数据治理工艺及元数据、数据质量等基础库,为上层提供资产支撑。
- 第二层是核心大语言模型层,整合公有云与私有云能力,涵盖国内开源与闭源生态,比如百度、智谱及开源模型DeepSeek、通义千问、Kimi等。
- 第三层是智能体开发平台,提供工作流构建的基础能力,包括提示词编排、知识库、工作流引擎、工艺集及智能体封装应用功能。
- 最上层是16个AI工作流,覆盖数据治理全流程,包括规划设计、检查与改进等环节。
基于当前架构,首先需要覆盖PDCA全流程。纵向层面需要覆盖数据治理的主要落地领域,包括元数据、数据标准、数据质量和数据安全,同时把价值领域也纳入进来。价值领域涵盖数据治理规划,具体分为蓝图规划和资产价值分析。启动蓝图规划与资产价值分析后,推进各环节的具体工作:设计环节要进行元数据发现,然后纵向传递到数据标准领域,横向则要将元数据转化为数据资源清单。随着工作推进,逐步形成数据资源目录,并实施数据标准审核。
从领域划分来看,主要涵盖数据价值、元数据、标准、安全与质量五大领域。各领域的构建工作内容根据企业内部需求及工作流职责边界来定义。比如在数据价值领域可以规划2-3个工作流,专门用于高价值数据的识别与分析计算;元数据领域可以细分为4-5个工作流,涵盖元数据探查与血缘分析等。数据标准领域将主数据工作流也纳入进来。这里要强调的是,各领域具体的工作流划分及内容需要根据企业实际落地情况进行动态调整与扩展,没有死规矩。
AI大模型在企业工作流落地过程中面临的第一个挑战是信任机制问题。大模型存在幻觉现象,而在数据治理这个对准确性要求极高的场景里,必须从四个维度来确保可靠性:
- 第一,知识库依赖机制。将企业标准文件、制度文档等结构化知识注入知识库,使大模型在生成工作流内容时优先检索既定知识。例如生成字段业务定义时,系统会自动关联已有文档作为依据。
- 第二,模型参数控制。以温度参数为例,当设定为0.1时可有效抑制话题随机性,从而规避模型输出不可控的风险。
- 第三,流程可追溯性。将AI工作流嵌入数据治理全环节(包括元数据探查、字段注释生成等),实现子流程的输入输出明确定义。典型流程可分为源数据读取、字段分析、规则推荐、等级汇总等标准化步骤,消除工作流黑箱问题。
- 第四,人机协同机制。明确大模型只负责生成初稿或底稿,最终必须经过领域专家审核确认。这套框架构成了AI工作流落地的核心信任保障体系。
第二个挑战是如何将AI赋能数据治理的工作使用起来。首先,把AI当作调用者,调用企业的IT设施、数据平台和流系统,直接与系统交互。其次,把AI作为服务,嵌入数据治理平台,比如在元数据管理平台加一个AI按钮,并涉及业务系统。工作流落地分为三个发展阶段:
- 第一阶段是爬行阶段,工作流独立,通过文件导入导出或直接连接数据库来快速解决问题。比如导出数据库schema加数据示例发送到工作流生成内容,避免额外工作。
- 第二阶段,AI作为调用者,调用已有数据治理平台的能力,比如元数据管理平台的基础元数据信息,辅助生成业务元数据和管理员元数据。
- 第三阶段是奔跑阶段,AI主动介入事前和事中管理。比如业务系统录入客户信息时,通过API审核录入结果,及时反馈并解决质量问题。
接下来详细看看每一个领域工作流的内容。在蓝图规划领域有两个工作流。
- 第一个是数据治理工作建议书。它集成了成熟的数据治理方法论实践,通过自然语言方式与项目负责人交互,生成严谨的数据治理蓝图规划建议书。举个例子,一个能源集团计划三年内从安全领域实施数据治理任务,识别有价值资产并寻求数据难度建议。大模型融合用户意图和知识库,结构化输出建议,包括总结摘要、治理任务和价值分析以及三年实施路线图。
- 第二个工作流从资产视角分析,评估现有数据资产的管理成本和业务赋能效果,生成可视化的数据资产评估指标。比如客户主数据分析管理成本及其在金融营销、风险控制、客户服务等领域的价值贡献,通过成本-价值对比提供分析。
规划完成后进入设计阶段,覆盖元数据、标准、质量、安全四个领域。
在元数据领域,自动采集技术元数据,分析解读生成业务元数据,并分析血缘生成可视化血缘图谱。在标准领域,基于元数据推荐内容,结合知识库(包括国标、行标、企业标准),从业务、技术、质量、安全维度推荐标准,比如业务名称、数据类型、质量规则和安全等级。在质量领域,根据标准输入、元数据输入和质量分析,输出质量技术规则并执行。在安全领域,覆盖分类分级和脱敏加密。举个例子,元数据和血缘发现工作流在企业有新建表或ETL脚本变化时,自动识别变化内容和血缘变动,给出元数据变动情况和标注;标准推荐工作流以产品数据集为例,自动获取数据,解析剖析,知识库检索,多维分析,推荐标准内容如产品编码、数据类型、安全规则和质量校验规则,便于执行设计环节。
设计完成后进入实施落地环节,这个环节相对更复杂一些。比如标准编制完成后需要检测推荐标准与已有标准的差异,标准实施机器人扫描现有数据,通过语义分析、上下文分析,结合官方标准库,识别差异并给出具体改进建议。比如识别企业四个领域中的4个业务库,针对客户等级分类标准,AI处理给出总体标准符合率,并指出哪个系统不符合以及如何改进。同样道理适用于质量和安全领域。在质量过程中,经常面临不同系统中同一客户信息不一致的问题。质量修复机器人会总结不同客户的信息,分析后推荐融合规则,比如客户地址以核心业务系统为准,手机号以最新更新的系统为准,给出更新建议便于快速修复。
资产沉淀是实施阶段落地后的两个工作流,主要涉及统一治理企业核心数据并展示治理结果。如果企业已有数据资产目录,需要动态更新它来保持活力和准确性。治理数据时,会遇到不同系统数据差异的问题,比如客户张北在不同系统中的手机号和地址信息不一致。通过主数据智能管家分析处理,这些差异被融合成一条黄金数据(准确且置信度高)。基于黄金数据,输出相关上下游表,并可一键处理。数据资产目录管理有两个痛点:一是元数据更新时如何关联更新目录,二是目录展示形态不符合用户需求导致空心化(目录挂载但无人用或搜索不到)。解决方案是基于客户搜索经验和需求实时更新目录。另一个问题是如何持续更新核心目录,比如客户数据更新后添加新标签,这些标签落到目录中便于搜索。
在数据治理中,除了规划设计实施,运营是最核心的环节——业界有句话叫“三分治理,七分运营”。需要解决运营问题,因为传统运营依赖静态规则和人工服务监控,这意味着要让规则更易被其他人使用。从数据标准角度,标准需要解决两个问题:一是如何让别人理解标准,以往标准以厚文档形式分发,只有专业人员能看懂。为此,在企业标准文档基础上提供数据智能问答服务,客户可通过自然语言或业务视角查询,输出更业务化的标准解释,同时赋能标准审核工作。二是进行质量和评估时,规则是固定的,比如核心交易系统中的金额和订单出现突发破坏性浮动。通过数据质量哨兵识别违反规则的情况来解决。
运营的第二阶段是进行安全预警和生命周期预警。安全预警主要针对权限管理,处理过度权限和沉睡权限,通过识别权限赋能后的日志点击和操作情况,定期回收权限。生命周期预警涉及数据生命周期规划,包括归档和销毁,通过定期识别数据访问日志,基于企业归档规则和销毁规则,自动推荐哪些数据应该归档(从高性能服务器移到低性能服务器)或销毁,并生成销毁建议。
04 场景案例:高质量数据从无到有,从有到优
接下来看一个工作流落地到企业实际案例的背景。一个企业下分四个板块,这些板块的信息化和数字化能力正在同步建设。本年目标是进行实际运营和风险的精细化管理。当前痛点包括信息化系统和中台同步规划建设,企业需要首先输出一个完整台账,主要包括完整的客户台账和合同台账。当前客户数据分布在多个业务系统中,这些系统数据不一致,比如CRM系统和财务系统记录不同,而且每个信息属性也不一致。
第一步是解决数据从无到有的问题,建立客户主数据可信数据集,实现从0到1的过程。传统数据治理需要人工配合和不同种类人员协作。如果采用AI智能工作流,第一块通过元数据血缘自动发现多个业务系统中客户相关的表格字段,而传统方式需要人工采集和数据补全。第二块涉及标准,统一主数据标准规范需要汇集各系统表并自行分析设计;AI能凝练识别系统表差异。第三阶段是融合和发布。融合时需要解决属性融合问题,比如A系统和B系统属性标准相同但数据不同,需要考虑置信度和更新时间;发布时需要统一发布数据状态并添加业务标签,以便理解客户主数据集。
解决了从零到一的问题后,接下来需要解决持续运营的问题,这与上述工作流相关。比如标准构建后如何对外服务;数据建设后如何展示在目录上;以及如何实际监测数据质量。此外,安全和生命周期的问题可能赋能到客户主数据集上,帮助持续提升数据质量。
最后关于数据价值量化。首先通过构建客户主数据体系并完善数据标签,使业务部门能够基于这些标签开展精准营销活动,从而有效提升活动转化率和产品销量。相较于传统数据治理模式,该方案展现出更高的投资回报率和显著缩短的实施周期。由于实施效率的提升,整体数据质量得到保障,客户满意度维持在较高水平。后续将通过数据资产价值评估体系对客户数据集进行量化分析,据此生成新的投资回报率模型,为未来数据战略的优化调整提供决策依据。
05 价值分析:降本&增效&提质
数据治理工作的价值分析,ROI(投资回报率)主要体现在降本、增效、提质三个维度。降本方面,通过减少重复性手工劳动显著降低了人工成本。增效方面,AI工作流实现了自动化流程,将任务处理周期从月级缩短到日级或周级。提质方面,AI不仅应用了传统质量规则,还引入了其他质量规则,并在修复过程中提供质量改进建议。在特定数据集场景的案例中,3个月内核心数据质量提升到99%,上线速度显著加快。这里需要说明的是,该效果仅适用于特定数据集场景,其他案例可能无法达到同等效率。
在推进AI赋能数据治理落地的过程中,主要采用低成本、短周期的方式快速实现。具体包括五个目标:首先需要实现战略对齐,确保治理目标与战略一致;其次强调人机协同,明确人与机器各自的定位与优势;此外还需要考虑安全、组织适配及闭环工作等方面。
总结下来:首先希望通过数据资产价值分析,推动数据治理从成本中心逐步转向价值中心;其次要降低劳动密集和重复性工作;最后,核心目标始终是提升数据质量。
当前AI工作流落地实践情况良好,未来期待通过单个智能体及多个智能体协同实现量化目标。后续将推进数据资产价值量化及数据治理民主化进程。核心在于把握AI时代机遇,重新定义数据治理工作。
06 问答环节
Q1:在这套AI数据治理框架下,人工与Agent的工作占比是如何分配的?
A1:如果排除前期的agent开发阶段,后续工作比例大致是二八分配:agent承担80%的工作,人工负责20%的审核以及对agent输出结果的调整,包括在输出不准确时提供输入以重新生成输出。
Q2:在制定数据标准时涉及“制定的依据”字段时,AI是否能够自动查找相关国家标准或行业标准(比如性别、职业分类等标准),以替代传统手工查找方式,节省时间成本?
A2:大模型在通用标准识别方面表现良好,能够准确提供标准依据。在实际应用中,采用通用模型与知识库结合的方式,将历史项目积累的标准文件纳入知识库,以降低模型幻觉风险。
Q3:不同业务场景的AI数据治理框架是否需要重新训练,是否需要训练专业的模型?
A3:整体流程具有通用性,但针对不同场景需要进行提示词和知识库的优化。例如,针对财务领域、人力资源领域及营销领域的数据集,都需要进行相应调整,单一工作流并不适用于所有场景。
以上就是本次分享的内容,谢谢大家。