扣子本地知识库导入与精细化清洗指南
把散落在Word、PDF里的制度文档、产品手册这些原始材料,直接丢给AI知识库,结果往往是一地鸡毛——检索错位、答案截断、答非所问,这些问题几乎成了家常便饭。问题的核心在于,上传不等于万事大吉。真正的功夫,在于如何把这些“原材料”转化成AI能精准理解、流畅调用的干净知识片段。

创建知识库并设置基础属性
整个过程从创建一个清晰的“容器”开始。登录扣子平台,进入你的团队工作区,在顶部导航栏找到「知识库」,点击右上角的「创建知识库」。这里有个关键细节:
知识库的名称在同一个团队内必须是唯一的
上传本地文档并触发自动解析
在知识库详情页,通过「新增单元」→「上传文件」来添加你的文档。支持常见的.txt、.pdf、.docx等格式。操作虽然简单——直接拖拽上传就行——但有一个极易踩坑的地方:如果PDF文件是扫描件或包含大量图片,系统是无法直接提取文字的,上传后会变成一堆乱码。所以,对于这类文件,务必在上传前先用OCR工具处理好,确保文字可识别,这是后续所有步骤的基础。
选择分段策略与清洗规则
文件上传后,会进入至关重要的分段预览界面。这一步直接决定了知识片段是否“干净”,进而影响AI的检索质量。
系统默认会启用「自动分段与清洗」,这个模式会做两件事:一是根据标题、空行等格式自动切分文本;二是执行强制清洗,比如清理多余的空白字符和删除所有的URL、邮箱地址。
那么,什么时候需要切换模式呢?如果你的文档结构清晰,用默认模式效率最高。但如果文档本身比较混乱,比如没有明确标题、段落粘连,或者你需要保留文档内的链接用于溯源,就必须切换到「自定义」模式。在自定义模式下,你可以手动指定分段符号,调整片段的最大长度,并选择是否保留链接。不过要记住,保留链接可能会让向量检索时引入噪音,需要在信息完整性和检索精度之间做个权衡。
验证分段效果并提交处理
分段规则设置好后,别急着点完成,先花几分钟验证一下效果。有两个实用的方法:
快速验证:
深度验证:
确认一切无误后,再点击「完成」。之后,你会看到状态变为「处理中」,耐心等待其变为「已就绪」,这意味着文档已经完成了清洗、分段和向量化,你的知识库已经准备就绪,可以投入使用了。