腾讯分析型 BI+AI 产品 OlaChat 创新探索
来源:互联网
时间:2026-06-13 14:22:27
好的,没问题。作为一位在数据领域深耕多年的老兵,我们来聊聊BI与AI结合的那些事儿。下面是根据您的要求,对原文进行人性化重写后的版本。
**导读**
大数据和AI技术的快速发展,正在深刻改变商业智能(BI)的格局。BI与AI的融合,不仅为数据分析师和业务决策者提供了前所未有的强大工具,也为整个数据生态注入了全新的活力。这次分享,我们想结合实际做过的项目,深入探讨一下BI与AI结合过程中的一些实践和思考,重点聊聊如何用AI技术让BI产品变得更“聪明”,以及在这个过程中,产品形态上会遇到哪些挑战,又该如何应对。
本文将从以下几个方面展开:
1. BI分析市场趋势
2. BI和LLM的结合点
3. 案例:腾讯PCG大数据平台在BI+AI领域(OlaChat)的探索与实践(本文主要论述BI产品结合AI能力时,合理的产品形态选型过程。关于agent技术细节、准确率等更多信息,可参考其他相关资料)
4. 问答环节
---
### BI分析市场趋势
在数字化转型的大背景下,BI作为企业决策的数据分析工具,其重要性已经无需多言。这么多年走过来,BI领域经历了从传统BI到敏捷BI的演进,现在正大步迈向智能BI。智能BI的兴起,得益于AI技术的持续创新,比如自然语言处理、推荐算法、AIGC等。这些技术为BI领域带来了全新的想象空间,让产品能够变得更加智能化和自动化。
---
### BI和LLM的结合点
#### 1. 智能BI的愿景与实现路径
**(1)智能BI的愿景**
智能BI的核心愿景非常直接:用户可以直接用自然语言提问,或者抛出一个业务问题,系统就能自动返回数据结果和分析结论。这意味着,用户不需要懂SQL,也不需要会拖拽,系统就能理解意图并自动完成整个数据分析过程。具体拆解来看,这个过程可以分成四个步骤:
* **业务问题翻译**:把用户口头的业务问题,转译成一个清晰的数据分析问题。
* **数据资产定位**:在海量的数据仓库里,精准地找到需要分析的那张表、那个字段。
* **查询条件生成**:自动生成对应的SQL或Python代码,去把数据取出来。
* **分析结论总结**:根据返回的数据结果,生成有价值的分析结论或决策建议。
**(2)大模型在智能BI中的应用**
大模型在智能BI这块,能做的事情还真不少:
* **自然语言处理与理解能力**:
* 大模型强大的自然语言理解能力,让用户完全可以用自己的话去查数据。这大大降低了数据分析的门槛,让非技术背景的用户也能轻松上手。
* 它还能处理客户评价、媒体内容这些非结构化的数据,从中提取出有价值的信息和洞察,给企业提供一个更全面的数据视角。
* **检索增强(RAG)**:大模型和RAG结合,能让信息检索的效果大大提升,更精准地从知识库里找到相关信息。同时,在生成回答时,也能更好地利用知识库里的知识,减少“幻觉”,提升准确性。
* **代码生成与自动化**:大模型可以通过自然语言指令,直接生成SQL、Python等代码。这意味着,即使不懂编程的用户,也能完成复杂的数据分析任务。
* **智能推理与预测**:大模型能基于现有数据进行推理和预测,帮助用户识别数据中的异常点、趋势、潜在的问题或者机会。
#### 2. 面临的挑战与解决方案
前景很光明,但路还得一步一步走。在智能BI的实际应用中,也遇到了一些挑战:
**(1)准确性问题**
LLM主要依赖训练数据学习,如果训练数据里缺乏足够的行业特定知识或上下文信息,模型就很难准确理解复杂的业务数据。所以,LLM在理解复杂数据集、特定行业术语或上下文中的细微差别时,可能会有偏差。再加上大模型自己的“幻觉”问题,误差就变得更大了。
**(2)上下文多轮对话问题**
聊天机器人需要在多轮对话中保持上下文的连贯性和相关性,准确理解用户意图和情感,这对对话系统来说是个不小的挑战。
**(3)系统交互体验**
业务系统有自己特殊的逻辑,比如权限、多系统间的交互等等。要把这些逻辑迁移到对话系统里,确保产品能提供自然、流畅的交互体验,需要极大的适配成本和相应的开发量。
#### 3. 业界领先产品的实践案例:Tableau 和 Power BI 的 Copilot 功能
你看Tableau和Power BI这些领先的BI工具,并没有一门心思只做对话形态。它们采用了Copilot的形式,把AI能力定位为BI工具里的一个“助手”。用户可以在右侧的Copilot面板里实时提问,拿到结果后再用BI流程去操作。比如在Excel里,用户可以通过指令性任务筛选出特定数据,然后操作左侧的表格。
#### 4. 融入当前BI流程,处理单点问题
对于OlaChat这个产品,我们认为更好的产品形态,是把AI能力融入到用户当前的BI作业流程中,去解决每一个具体的单点问题。比如在找数据、数据描述与加工、分析、可视化这些环节,用AI来辅助,用户可以更高效地完成任务。
---
### 案例:腾讯云大数据平台在BI+AI领域的探索与实践
#### 1. Text2SQL能力展示
在数据分析的作业流程里,写SQL查询是个高频且关键的环节。传统方式需要用户会SQL,有门槛,而且手动写还容易出错。所以,我们用自然语言处理技术实现了Text2SQL的转换能力,让用户体验和工作效率都上了一个台阶。
**工作原理**
Text2SQL技术通过把用户的自然语言查询转化成结构化的SQL语句,让非技术人员也能轻松查数据。具体流程是这样的:
* **选择表**:根据用户选择的数据源范围,确定要查的数据表和字段。
* **理解用户意图**:系统先解析用户的自然语言输入,识别出具体的分析需求。
* **回填SQL**:基于解析结果,系统自动生成符合需求的SQL查询语句。生成的SQL代码会回填到SQL工作区,用户还能进一步手动调整,确保准确性和完整性。
#### 2. Text2界面化拖拽分析能力展示
在实际工作中,拖拽分析是产品运营常用的功能,通过图形化界面简化数据查询和报告过程。拖拽分析虽然友好,但还是需要用户手动配置指标、维度和过滤条件,对非技术背景的用户来说,还是有门槛。为了降低这个门槛,我们引入了Text2界面化拖拽分析功能。
**工作原理**
* **自然语言处理**:系统先利用自然语言处理技术理解用户的查询请求。比如,用户可能会问:“腾讯视频的某一个剧集的播放次数是多少?”
* **查询条件生成**:基于解析结果,系统生成适用于拖拽式分析工具的查询条件,并自动填充到工作区,用户可以直接看到和操作。
* **用户微调与反馈**:用户可以在拖拽式分析工具中对自动生成的查询条件进行调整。每次微调都会作为新的训练样本反馈给模型,帮助模型不断学习改进。时间一长,模型就能越来越准确地理解用户意图。
#### 3. AI出图能力展示
把分析结果转化成直观的图表,是个常见需求。传统可视化工具需要用户手动配置很多东西,比如选图表类型、设坐标轴、加图例等,耗时且需要专业知识。为了简化这个过程,我们开发了AI出图功能。
**工作原理**
AI出图功能按以下步骤自动化生成图表:
* **数据字段分类与命名**:AI自动识别数据结果中的字段,分类为维度或指标,并为字段生成易于理解的显示名,提高图表可读性。
* **可视化组件选择**:基于数据特性和分析需求,AI模型会推荐最合适的可视化组件,比如折线图、柱状图、饼图等。
* **图表配置与优化**:AI自动配置图表的辅助线、异常点标记等,不用用户手动设置,然后直接生成图表。
* **结果解读**:结合数据解读能力,对图表中的异常点进行标注,提供额外的洞察。
#### 4. AI数据解读
除了生成SQL、拖拽条件和AI出图,系统还提供了数据解读功能,包括描述性统计、异常检测、趋势预测和归因分析等。当前,这些高级分析能力以单点形式提供给用户,需要用户主动触发。未来,计划通过大模型自动完成这些高级分析,把结论以更可读、更完整的形式呈现给用户,提供更多启发和洞察。
**工作原理**
**(1)数据解读功能**
* **描述性统计**:对数据进行基本的统计分析,比如均值、中位数、标准差等。
* **异常检测**:识别数据中的异常值或模式,帮助用户发现潜在问题。
* **趋势预测**:基于历史数据预测未来趋势,支持业务决策。
* **归因分析**:分析影响结果的关键因素,帮助用户理解数据背后的原因。
**(2)自动化与总结**
* **自动化分析**:通过大模型自动执行上述分析任务,减少用户操作负担。
* **结论总结**:大模型会把分析结果进行总结,生成易于理解的报告或结论。
* **启发性输出**:系统不仅提供数据结论,还会给出具有启发性的建议和洞察。
**(3)启发而非直接干预**
* **不直接干预业务决策**:系统生成的高级分析结论,更多是作为启发性的参考,不会直接用于业务决策。
* **用户自主决策**:用户可以根据系统的建议进行进一步分析和讨论,最终自己做决策。
* **避免“幻觉”等问题**:考虑到大模型可能存在的“幻觉”等问题,系统不会直接干预具体的业务操作。
#### 5. 更智能的产品形态
除了提供单点能力与BI工具的结合,更智能的产品形态应该能引导用户完成整个数据作业流程。这种形态不仅能降低用户学习成本,还能通过推荐系统减少用户操作步骤,提升体验和效率。
**工作原理**
**(1)智能推荐系统**
* **基于规则和算法的信息**:系统根据预设的规则和算法,向用户提供分析建议。这些推荐能帮助那些数据基础弱或缺乏分析思路的用户。
* **业务历史分析**:通过对平台上的历史分析进行分析,系统可以根据时间戳等信息推导出业务问题的分析流程。用户完成一次分析后,系统可以推荐下一步该做的其他分析,帮助形成业务结论或获得启发。
**(2)全流程引导**
* **引入数据阶段**:在数据导入时,系统推荐合适的数据源和清洗方法。
* **描述数据阶段**:在数据探索时,系统自动进行描述性统计,推荐进一步的分析方向。
* **可视化阶段**:在数据可视化时,系统推荐合适的图表类型和配置选项。
#### 6. 独立产品可能的产品形态
业界一直在期待一种能独立运行、又能结合多种AI能力的产品,帮助用户完成复杂的数据分析任务。传统的对话式或聊天形态的工具,在处理大体量业务时存在局限性。所以,需要探索新的产品形态来更好地满足用户需求。
**产品形态探讨**
**(1)分析命题画布**
* **多步分析流程**:用户的分析思路通常是多步骤的,一个复杂问题可能需要多个数据分析任务才能完成。分析命题画布可以很好地承载这种多步骤、带分支逻辑的分析流程。
* **可视化与可操作性**:画布形式让用户能直观地看到整个分析流程,并在每一步中进行干预和调优。这种形式提高了用户参与度,也确保了每一步结果的准确性。
**(2)上下游多步串联**
* **逐步引导与优化**:通过上下游多步串联,用户可以在每个环节中对结论进行调整和优化,让下一步操作更精准、更面向结果。
* **灵活性与控制**:用户能在整个分析过程中保持高度的灵活性和控制力,确保分析过程符合实际业务需求。
#### 7. ABI产品架构
构建ABI产品时,一个主要挑战是如何让产品适应公司内部多个数据平台的需求。这些平台对AI能力的需求有共通之处,但也有一些特定差异。为了有效整合AI能力,我们开发了一套开放式架构。
**开放式架构设计**
开放式架构的核心目标,是把AI能力以模块化的方式集成到不同的数据平台中。这种设计允许各平台根据自身需求灵活地调用AI工程或服务。比如,数据平台可以选择直接工程化接入OlaChat产品,或者把Text2SQL、Text2Python以及代码纠错、优化等agent能力接入到自己的平台。
---
### 问答环节
**Q1:目前用什么指标和标准来衡量AI数据产品做得好?**
A1:主要会看以下几个维度:
* **使用量**:最直接的衡量体系,通过统计产品使用频率和规模来评估其受欢迎程度。
* **留存率**:衡量产品长期价值的关键指标。如果用户在一段时间后还在用,说明产品确实解决了问题。高留存率意味着产品能持续满足用户需求。
* **用户数量和使用次数的增长**:随着AI能力落地,用户数量和产品使用次数也在增长,说明产品正在吸引新用户并增加现有用户的参与度。
* **准确率的持续优化**:对于准确率有问题的场景,比如SQL纠错等高频场景,会通过日常分析用户查询和结果准确性进行调优,提升产品性能。
**Q2:智能取数的准确率是多少?多表查询和单表查询的准确率区别大吗?**
A2:Text2SQL和Text2拖拽分析查询条件的准确率,确实是衡量AI数据产品体验的重要指标。但对于数据和元数据体量都极大的企业来说,苛求绝对的准确率不应该是产品主要攻关的方向,这点在做纯对话形态时已经有一些基本认知了。
目前我们把准确率分成了几个等级:正确、基本正确(SQL框架正确、拖拽分析查询框架正确)、错误等。其中正确占比约75%,正确+基本正确合计占比约85%,表现还是不错的。多表查询天然比单表复杂度高,准确率会有所回落,但目前观察差距在可控范围内。
**Q3:能否与Power BI共用或与公司自开发的BI结合使用吗?**
A3:这个问题在前面已经介绍过。我们在设计OlaChat的工程和agent时,已经采用了开放式架构,考虑了如何与业界其他产品或公司内部其他产品结合。在这套框架下,可以以工程化或API形式把AI能力接入到各类数据平台。除此之外,还需要考虑数据平台中的数据和元数据与OlaChat完成对接。只要这两部分对接完成,OlaChat就能处理来自不同平台的数据问题。所以,与Power BI共用或与公司自开发的BI结合使用,不仅是可能的,而且技术上已经具备了实现的基础。
以上就是本次分享的内容,谢谢大家。