首页 > 教程攻略 > ai资讯 >DataWorks Copilot 在 ETL 与 BI 的应用实践

DataWorks Copilot 在 ETL 与 BI 的应用实践

来源:互联网 时间:2026-06-30 15:22:26

当大模型遇到大数据开发平台,会发生什么?DataWorks Copilot 给出的答案是——用AI重新定义ETL和BI的工作流。从自然语言生成SQL,到跨引擎语法自动适配,再到基于Agent的自动化任务编排,这套体系正在让数据工程师从重复劳动中解放出来。以下,从演进路线、产品创新到技术架构,逐一展开。

DataWorks Copilot 的演进路线介绍

现代企业数据架构的发展演进

数据架构的演进并非一蹴而就,而是顺着一条清晰的路径在走。从传统数据库起步,经历数据仓库、数据湖,再到当下大热的湖仓一体架构,DataWorks 的迭代节奏几乎与这些趋势同步。它从一开始就定位为一站式智能大数据开发治理平台,不断兼容新的存储和计算方式。

另一个关键变化是AI与大数据的融合。越来越多的引擎和数据库开始内嵌AI能力,数据内容也从结构化数据扩展向非结构化、多模态数据。DataWorks 在数据的收集、处理、分析、决策与自动化流程中持续做优化,说到底,就是为了适应这个“数据形态在变、处理需求也在变”的新局面。

智能化这件事,DataWorks 很早就开始探索了。在大模型技术还没有大规模普及的时候,团队就尝试过自然语言取数这类功能。不过坦白讲,早期技术在泛化能力上确实有瓶颈,很难在不同行业或场景中快速铺开。

真正的转折点来自大模型技术。DataWorks 基于大模型升级了自然语言到SQL的转换能力,结合大模型的推理和生成优势,在多个行业场景中实现了更好的适应性。2024年云栖大会上,DataWorks Copilot 正式发布,紧接着在2025年4月又推出了MCP Server Tools,对主流大模型的支持更加完善。

产品实践与创新

DataWorks Copilot:AI 智能助手

DataWorks Copilot 是基于大模型技术构建的智能化数据开发助手。目的很明确:帮用户在复杂的大数据生态里提效、降门槛。它是阿里巴巴自研的大数据平台,支持包括MaxCompute、Flink、Hologres在内的自研引擎,也兼容Spark、StarRocks等开源平台。核心理念就八个字——“Data for AI,AI for Data”。大数据为AI提供养料,AI反过来赋能大数据开发流程,Copilot 正是连接这两端的桥梁。

从 Copilot 到 AI Agent:下一代 AI 原生数据平台

  • 第一代:Copilot——借鉴 GitHub Copilot 模式,聚焦SQL编程场景。提供自动补全、语法提示等功能,解决的是程序员在编写过程中重复性高、易出错的问题。

  • 第二代:Agent——基于大模型推理能力,实现任务级自主执行。用户只需用自然语言描述目标,系统就能自动解析并生成完整的调度任务、质量监控规则、报警机制,还能调用MCP Server或第三方工具完成端到端的流程。

Copilot:数据开发助手应用实践

数据开发助手的核心能力覆盖六个方面:SQL生成、SQL问答、SQL解释、SQL补全、SQL纠错、SQL注释。这些能力在实际场景中确实能解决不少痛点。举个例子,不同引擎的时间函数,名称和参数经常不一样,传统做法是要去翻文档,现在Copilot能智能识别并推荐合适函数。窗口函数复杂度高,工程师以前靠复制粘贴模板,现在一键生成。跨引擎适配成本高,Spark、Flink、ClickHouse切换时SQL写法变化频繁,Copilot自动适配语法差异。

在一次内部测试中,要求统计某学校各班级每10分区间的学生人数。Copilot生成的结果字段命名清晰,比如“0~9分”“10~19分”,逻辑精确,甚至比资深工程师手写的结果还要好。

AI Agent:自然语言交互界面

写SQL只是第一步,怎么把它变成可调度的任务链才是ETL流程的关键。传统做法需要手动配置定时任务、数据质量规则、报警机制,操作繁琐且容易出错。DataWorks Copilot 引入了LUI交互方式,用户用自然语言描述需求,系统自动完成调度周期定义、数据质量规则设置等工作。

大模型应用技术与创新

产品架构与核心能力

DataWorks Copilot 的架构设计走的是RAG加微调模型的分层路线。RAG让它处理大数据相关任务时能更精准地理解和生成代码,微调模型则负责根据特定需求调整输出。前端包括编辑器、问答系统和Agent三部分,其中编辑器目前使用频率最高,但随着技术演进,问答系统和Agent的权重会越来越大。

成本控制方面,前端做了大量优化。通过减少模型请求量,能降低30%以上的成本,这对云厂商来说是一笔不小的节约。在代码补全领域,使用了专门设计的小模型,参数规模从最初的14B逐步优化到3B,甚至考虑1.5B,目标就是找到性能与成本之间的最佳平衡点。

技术创新点

数据安全方面,支持内部独立部署的满血版DeepSeek、Qwen等模型,保证数据不出域。SQL领域具备自动解析能力,通过分析历史数据和数据血缘关系,自动生成上下文感知的查询建议。Chat BI是DataWorks的一个重要方向,提供开放的技术架构,支持自定义数据上传、云间数据调用,还支持MCP Server集成,解决找表难题。同时利用阿里云的强大计算能力,实现快速的数据洞察。

效果展示

一组数据足以说明问题:DataWorks Copilot 服务于超过4万活跃用户,月均处理量巨大,生成并采纳了2000多万行代码。这背后是稳定性和高可用性的真实验证。

未来创新与突破

Multi-Agent 场景化设计

在大数据和BI场景中,主要涉及四个角色:业务方、数据开发人员、数据分析师、数据治理专家。DataWorks Copilot 设想通过理解这些角色之间的交互文档,构建一个智能编排系统,利用MCP Server能力和大模型技术,把业务需求转化为具体执行计划。数据处理流程通常包括数据集成、处理、调度等标准化步骤,通过预生成期望执行的计划,用户可以更高效地完成这些步骤,无需频繁跳转页面。

知识库的构建是连接业务需求和技术实现的关键。通过对业务规划文档和需求文档的理解,结合MCP Server能力,自动生成加工代码或分析代码,并与文档内容关联,形成动态更新的知识库。

基于 MCP 的 Multi-Agent 技术架构

DataWorks 拥有上千个功能和近200个官方API接口。为了简化调用过程,设计了API泛化功能,并尝试引入领域特定语言(DSL)来简化调用方式,让大模型能更好地理解和执行复杂任务。对大模型进行微调,使其理解DataWorks的复杂功能和业务逻辑,同时支持第三方工具的集成。利用最新的agent-to-agent协同技术,灵活应对各种需求链路,确保数据开发闭环顺畅运行。

安全与数据隔离

在实现智能化的同时,数据安全和隐私保护始终是底线。DataWorks Copilot 确保数据在不同用户和项目之间严格隔离,防止泄露。系统还会对数据进行脱敏处理,即使在多租户环境中,每个用户的数据也保持安全。

未来展望与挑战

DataWorks Copilot 的未来方向是通过Multi-agent系统革新数据处理流程,实现从需求文档到最终报告的全自动化链条。当然,这一目标面临不少挑战,比如数据安全问题、跨公司的数据隔离要求。但潜在价值巨大——显著提高数据开发效率,推动行业向前发展。

Q&A

Q1:在 DataWorks 环境中,如何精确识别用户的查询请求属于哪个数据域或主题?特别是跨BU的数据访问权限,系统如何确定用户查询的表?

A1:采用了几种策略。第一,调用内部API进行找表,DataWorks可以调用阿里巴巴内部数据垂直部门提供的API来查找表,这些部门有专门的找表API,系统据此生成具体SQL查询。同时利用组织架构和项目空间信息进行路由。第二,集成第三方模型能力,大型部门有自己的模型和算法,DataWorks Copilot 可以集成这些能力增强找表准确性。第三,用户也可以通过自然语言查询中明确指定表名,比如使用@table_name,直接从指定表获取数据。

Q2:生成SQL后,执行时可能因权限不足失败。系统是在生成SQL时检查权限并提醒用户申请,还是等执行时才验证?

A2:目前的做法是首先生成完整SQL语句,然后在UI界面通过警告提示用户哪些表或字段没有访问权限,建议用户申请。执行前会进行一次权限预检,如果发现权限不足,不会提交任务,并提示用户需要申请权限。当前策略是不在NL-to-SQL过程中加入过多权限逻辑判断,以免影响SQL生成质量,更多依赖执行前检查和用户反馈。

Q3:DataWorks Copilot 如何保证随着模型参数规模减少(从14B降到3B甚至1.5B),仍能保持接近大模型的效果?

A3:团队采取了一系列优化措施。样本挖掘方面,强调微调样本的质量而非数量,通过精心挑选最具代表性的训练样本,提高模型泛化能力。数据集拆分方面,不同任务类型采用独立数据集进行针对性训练,根据任务特征结构化拆解,确保训练效率与模型收敛速度。模型压缩与蒸馏技术方面,采用知识蒸馏、量化、剪枝等压缩手段,将大模型能力迁移到小模型上,结合本地推理优化,提升小模型在高并发场景下的响应速度和资源利用率。模型上线后持续进行AB测试,对比不同版本的效果差异,不断优化微调策略与样本构建方式。

相关下载