RAGFlow v0.26.2 发布详解:聊天渠道、文件解析、MCP、Dataflow、Go 生态全面进化
来源:互联网
时间:2026-06-30 14:51:12
RAGFlow v0.26.2 最近发布了,这次更新内容相当扎实,主要集中在两大块:一是把聊天渠道的覆盖面又扩了一圈,二是把文件解析这条链路,特别是OCR和图像处理这块儿,好好打磨了一下。当然,数据集管理、MCP的稳定性,还有Go生态的工具链,也都在持续优化。
先来说说几个核心判断。这次版本从2026年6月29日发布,内容非常集中。既有面向业务的功能增强,也有针对底层稳定性的修复。从官方变更记录来看,重点方向很明确:聊天渠道能力继续扩展;文件解析链路,尤其是OCR、DOCX、Markdown、PDF、Excel这些场景,都有显著增强;数据集与文档管理能力也得到了加强;MCP的稳定性问题得到了修复;Dataflow的接口和运行反馈能力恢复;Google Cloud Gemini新模型的区域路由问题也解决了。此外,Go API与Go CLI持续补齐,UI/UX、国际化、Agent、工具链等方面也有不少修正。
**新功能:聊天渠道与文件解析齐头并进**
这次新增的能力很直接,主要是两块:聊天渠道的接入和文件解析的增强。
**1. 聊天渠道:WhatsApp、钉钉、企业微信全覆盖**
* **WhatsApp**:现在可以通过**二维码扫描**的方式接入。这意味着RAGFlow已经把WhatsApp Web这种常见的接入方式纳入了支持范围。
* **钉钉**:通过**Bot API凭据**来完成接入。对于需要打通企业内部消息触达和机器人对接的场景来说,这无疑是个非常实用的能力。
* **企业微信**:这次是通过**WebSocket连接**来接入。这样一来,RAGFlow在企业级沟通入口上的覆盖就更全面了。
**2. 文件解析:PaddleOCR管线升级**
文件解析方面,这次新增了两项关键能力:一是为PP-OCRv6以及类似文本识别模型增加了回退逻辑,二是直接在PaddleOCR流水线中集成了图像解析能力。这意味着在OCR识别兼容性和图像内容的解析链路上,都进行了增强。
**改进项:细节处的打磨**
虽然“Improvements”部分的更新看着不算多,但每一条都非常关键。
* **数据集改进**:一方面,处理了空文件夹链接到数据集时的边界情况,避免了异常。另一方面,对`get_flatted_meta_by_kbs()`方法增加了分页支持,专门防止当数据集文档数量超过1万时,元数据查询量过大导致CRUD操作失败。这很明显是为大规模知识库场景提供稳定性保障。
* **聊天渠道改进**:对历史会话的持久化逻辑做了优化。现在,终端用户的会话历史在**系统重启后仍可保留**,而且当一个渠道绑定到新对话时,历史会话依然保持隔离。这就解决了“历史能不能留住”和“新旧对话会不会混淆”两个核心痛点。
* **国际化改进**:扩展了韩语UI的覆盖范围并优化了翻译,同时还补充了聊天渠道、用户名校验、模型编辑等场景下的法语翻译。
**Bug修复:关键稳定性的大扫除**
这部分是本次版本的重中之重,涉及面非常广。
* **文件解析修复**
* **DOCX**:修复了解析时`Heading`样式触发`ValueError`,以及法律文档解析器误删DOCX表格的问题。
* **Markdown**:修复了DeepDoc分隔符导致标题与正文分离,以及Markdown表格在分块结果中重复出现的问题。
* **其他**:修复了HTML大块拆分时原文丢失、Excel中值为0的单元格被忽略、VLM PDF解析器只解析前12页、`[ID:0]`未转换为`Fig. 1`等问题。
* **MCP修复**:解决了空白文档页导致服务器挂起、最后一页因分页逻辑缺陷被丢弃,以及连接与数据集发现因`page_size`限制而失败的问题。
* **Dataflow修复**:恢复了rerun接口和DSL返回,恢复了默认配置并返回真实SSE负载,确保了pipeline运行时的消息ID和日志更新能正常显示。
* **LLM相关修复**:解决了Google Cloud Vertex AI中`gemini-3.5-flash`模型在`eu`或`us`区域端点的路由问题,现在会显式使用多区域路由。
* **UI/UX修复**:修复了元数据新增弹窗发送空值、Agent页面旧数据闪现、空消息通知等问题。
**工程化推进:Go API与Go CLI**
这次版本另一个显著的特点是密集的Go化迁移工作。大量数据集、文档、chunks、message、chat、session、connector相关的API已经迁移到了Go侧实现。同时,Go CLI也经历了大量更新,支持了Windows、Linux、macOS三平台,并新增了统计、任务管理、Provider管理、Admin配置、模型展示等多个命令。这标志着RAGFlow的工程化进程又向前迈进了一大步。
**总结**
RAGFlow v0.26.2 是一个覆盖面非常广的版本。它不仅扩展了面向终端用户接入的渠道(WhatsApp、钉钉、企业微信),也对底层基础设施进行了大量修复和Go化推进。其核心价值在于:聊天入口继续扩展、文档解析链路更完整、数据集能力更稳定、MCP与Dataflow的关键稳定性问题得到解决、以及基础工程架构(Go化)的持续演进。对于那些正在深度使用RAGFlow的团队来说,这次更新值得认真对待。