大模型BI:商业智能背后的3大关键技术
深入解析AI大模型在商业智能领域的应用前景。核心内容:1. 数据获取:探讨Text2Sql及其局限性,提出Text2DSL新思路2. 深度分析:从数据明细罗列到预测、诊断、指导的高级数据分析能力3. 内在推理:大模型BI的终极能力要求,实现真正的智能决策支持
前言
上周发了一篇文章,回头看总觉得有不少地方写得不透彻,甚至已经有些跟不上节奏了。这恰恰是AI时代最真实的写照——你永远在追赶,永远觉得自己懂得太少。群里有朋友问我,为什么把5种大模型BI实现路径分得那么细?其实从技术角度看,无论写SQL还是写代码,本质上都是Text2Code。但仔细琢磨,这5种路径确实不在一个维度上,强行分类难免有争议。
这周密集的行业交流让我有了新的思考,尤其是听了字节北美大模型研发负责人杨红霞博士的一堂课,学到不少东西。结合这些启发,我把大模型BI的关键能力归纳为三个层面,每一个对模型的要求都在升级:
1. 数据的获取
2. 深度的分析
3. 内在的推理

这三条路说到底偏技术。如果它们构成了智能BI的"理性"内核,那么基于NUI的人机交互和用户体验设计,就是不可或缺的"感性"部分。这个话题足够写一整篇,今天暂且按下不表。
一. 数据的获取
数据获取,就是从企业分布式数仓里捞到用户想要的东西。Text2SQL是典型的代表,但问题在于,B端某些场景下,不同角色用起来总有各种不如意的地方。怎么突破?我们提出了一种叫做Text2DSL的中间态方案——把自然语言转成领域特定语言,再借助已经打磨得很成熟的查询优化引擎,来兼顾效果和性能。
这个阶段对大模型的能力要求,业内普遍给出一颗星的评价(最高三颗星)。目前市面上能实现这类能力的产品不少,成熟度勉强够得上两颗星。可技术难点仍然不少,比如语义对齐:企业里大量相似的指标和数据字段,口径却千差万别,差一点就谬之千里。现在常见的做法是“语义澄清”,抛几个选项让用户自己挑。说实话,这只能算下策,本质还是以工具为本的老路。真正以用户为本,应该根据用户历史查询习惯,主动理解请求,甚至帮用户补全意图。
至于查询优化,眼下底层引擎已经足够成熟,大模型暂时不用操心——不过未来未必,说不定会有基于大模型的数据查询优化新课题浮出水面。
只做到“取数”显然不够。要想真正诊断、预测、指导,得靠后面两个层次。
二. 深度的分析
为什么叫“深度”分析?因为数据获取本质上也是一种分析,只不过那是“浅度”的——说白了就是数据明细的罗列,哪怕带上group by、sort,也还是表层。用户真正需要的,往往是更进一步的探索:比如“预测未来一周的销量趋势”,或者“如果我加大某类理财产品的营销力度,会对另一种产品产生什么影响?”
这种能力,以前的GPT4里叫Code Interpreter(代码解释器),后来改了名,叫Advanced Data Analysis(高级数据分析),再后来干脆迭代成All in one,把在线检索、图像生成、数据分析全整合到一起了。
这里分享一个我测试的案例:


我一口气提了三个需求:先预测,再做相关性分析,最后做因果推断。来看看GPT4的反应——它先调用了pandas库的head方法扫了一眼数据的基本情况,然后自己把任务拆成了四个(因为我要求只看中国区域,它还多了一步数据过滤)。接下来逐个写代码、执行、看结果。说实话,这个过程太像人类分析师的做法了。
细看每个任务的完成质量:
- 预测这块,GPT4用了sklearn的线性回归模型,画出来的图乍一看还行,但毕竟是线性预测,趋势难免生硬,勉强及格。
- 相关性分析输出了一张矩阵图,清晰又直观。虽然我没明确要求画图,它自己就画出来了。
- 因果推断就不太行了,直接撂挑子不干,找了堆理由——数据复杂、工具受限,反正就是做不了。试了几次都没成功。
不过在多轮对话里,这些瑕疵或许能逐步修复。感兴趣的话不妨自己试试。就像infi-coder团队提到的,当前的代码大模型在评估基准上还有不少漏洞。他们基于StackOverflow构建了一个高质量QA-Benchmark,同样,BI领域也急需这样一个权威的基准测试。
另一个现实问题是:实际企业场景中,分析需求常常呈现头部效应。每次实时写代码,效率低不说,稳定性也不可靠。更好的方案是内置一批常用API,通过Function Call的方式调用;而长尾需求再交给LLM实时生成代码。既有企业的稳定性,又不失灵活性。
这类能力目前在市面上已经能看到一些公开产品,但都还很初级。距离真正在企业落地,结合大规模分布式数仓赋能数据分析,还有相当长的路。如果给这个阶段打分,大模型能力要求两颗星,市场成熟度一颗星。
三. 内在的推理
在GPT4前面那个数据分析案例里,我们已经能看到大模型某种“任务拆解”的影子。它能把一个复杂需求分解成若干可执行的步骤,然后逐个写代码去解决。但这有一个前提——用户的问题要足够清晰、可执行。就像一位刚进公司的实习生,名校毕业、底子扎实,可每一步还都得老师傅手把手教。
假如问一句“我该怎么做才能提高整体销量?”不同行业的分析思路天差地别。零售跟制造完全是两回事。再比如金融领域,一位投资经理问:“如何帮助客户优化投资组合并做好风险管理?”大模型就得分解出好几路任务:先做市场分析,摸清宏观趋势和行业表现;再做资产配置,根据客户风险偏好和投资期限来配比;接着做风险管理,评估市场、信用、流动性等各类风险并制定对策;最后还得做合规审查,确保策略符合监管要求。每一步都得再细分,还需要持续监控和动态调整。
要让大模型从一名“实习生”成长为“资深专家”,真正解决更有深度的问题,第一步就是深入行业内部——先把自己变成那个资深的人,才知道怎么把行业智慧和大模型融合起来。这不是堆数据、做个新模型、发布个XXX-GPT就能搞定的。
目前,市面上还看不到成熟的这类产品,暂时不好给评级。
继续出发
在AI与BI这条技术之路上,难题像夜空中最亮的星,而我们像赶路的人,每一步都踩在未知里。挑战虽然多,好在方向已经清晰,步子也已迈出。就像爱迪生说的那句老话:“我没有失败,我只是找到了一万种行不通的方式。”