瓴羊Dataphin:AI驱动的数据治理——千里之行,始于标准
AI项目爆发式增长不假,可为什么落到具体业务里,好多都“雷声大雨点小”?关键原因之一,绕不开数据质量。Gartner的预测也佐证了这一点:到2025年,国内至少三分之二的生成式AI项目,会因为数据质量太差而“烂尾”。
那么,在AI时代,怎么把数据治理这个老问题抓起来,让它真正服务好业务?
这个问题,正是瓴羊「数据荟」数据Meet Up第3站聚焦的议题。会上,瓴羊高级技术专家周鑫分享了他在“AI驱动数据治理”上的实践与思考,核心就是从数据治理的固有难点出发,看AI究竟能带来哪些实质性机会,尤其是瓴羊Dataphin在提效方面拿出的方案。
数据标准:数据治理“化零为整”的核心
先看一个根本问题:数据治理,为什么这么难?
原因在哪?说白了,整个治理过程关注的点太多太散,始终缺一个核心抓手。周鑫在分享中提到,大部分企业搞数据治理,都得经历评估现状、制定目标、执行计划、持续监控这几步。每一步的工作量都不小,导致治理动作非常零散,走着走着就容易偏离最初的目标。更麻烦的是,就算咬牙把第一轮治理做完了,后续迭代也异常痛苦——业务变了,目标得跟着调,但你会发现没法增量式地迭代,又得从头评估一遍,已经完成治理的项,变更影响还得全量评估,成本高得吓人。
问题的关键,还是得找到一个能把所有碎片串起来的东西——
数据标准
近两年,国家层面也频频发力,从《“数据要素x”三年行动计划》到国家数据标准体系,再到全国数据标准化技术委员会的成立,都在不断强化数据标准的战略位置。周鑫的观点很直接:
企业只要把数据标准梳理清楚了,大部分数据治理工作也就顺势完成了。
以瓴羊Dataphin的做法为例,企业完成业务与数据盘点后,统一进入Data Catalog,再在此基础上梳理数据标准。Dataphin在建立数据标准的过程中,会自动生成元数据和内容的监控,让
数据标准贯穿数据的整个生命周期,实现对数据的事前、事中、事后标准落标稽核。
举个例子,在设置身份证号的标准时,系统会根据用户填写的标准属性,自动生成一系列元数据、内容监控和安全分级。这样一来,用户在治理过程中,只需要盯着那些不满足标准的数据就行。数据标准的落标情况,就成了衡量数据质量优劣的“晴雨表”——标准覆盖得越全,数据质量自然越高。
AI激活一池春水,数据治理的提效之道
AI的爆发,给数据治理这池春水带来了新的活力。具体机会在哪?周鑫归纳了三个层次。
第一,AI能很好地
理解结构化与非结构化数据
自动治理
自动评估治理效果
Dataphin解决方案:让“好数据”成就“好业务”
落到具体场景,问题就更直观了。
“我是电商业务负责人,今年大促目标是GMV提升20%,数据能帮我做什么?”
“我正在准备做运营外投,对于圈选母婴群,希望从数据上结合知识库,有什么建议?”
“我是产品运营,我想了解产品的销量指标定义是什么?”
这些问题,在AI助力下,都可以通过对话的方式直接获得回应。承载这个能力的平台,叫“智能小D”。
周鑫解释,
智能小D在Dataphin里扮演的是数据PD与数据架构师的角色。
有了智能小D,用户可以直接从业务需求出发找数据,比如“我要找客户表”、“我要做客户分层,需要哪些表?”、“销量下降明显,可能的原因有哪些?”——大模型会分解、联想,直接给出对应的数据资产表,用户完全不用绞尽脑汁把需求拆解成资产关键词。
除了找数据,Dataphin还在
资产上架环节引入了AI能力
几十秒就能搞定。
在
特征识别
周鑫透露,目前Dataphin的数据治理AI计划正处于
提效阶段
自动化阶段
智能化阶段
著名的信息技术领域思想领袖J. Ladley在《数据治理》一书中说过,数据治理的最终目标是让它不再是孤立的计划,而成为业务核心的组成部分。瓴羊Dataphin要做的,正是将数据治理融入业务环节,推动它从支撑性工具走向核心驱动力,用智能化手段赋能企业战略决策与创新实践。