首页

手游

资讯

专题

首页 > 教程攻略 > ai资讯 >CherryStudio知识库详细设置教程

CherryStudio知识库详细设置教程

来源：互联网时间：2026-06-23 14:00:31

最近，有好几位朋友问起CherryStudio知识库的设置问题。虽然此前已经聊过不少相关内容，但仔细翻看后发现，知识库的

参数设置

这一点确实漏掉了没讲透。这一篇就来专门补上。

新建知识库

在知识库界面点击“添加”，就会弹出新建窗口。名字可以随意起；至于嵌入模型，如果一时拿不准该用哪个，先选bge系列是个稳妥的选择。

至于如何挑选嵌入模型，后续会在《知识库优化之路（三）》中详细展开，这里先按下不表，直接进入今天的正题。

知识库设置

知识库添加完成后，在模型信息区域会有一个设置按钮。点进去，就进入了知识库参数界面。

这里有一个关键点：

嵌入模型一旦选定，就无法再更改了

。这意味着，必须在新建知识库时就敲定。如果实在想换，唯一的办法就是删除整个知识库，重新创建。

除了嵌入模型之外，知识库可调的参数其实并不多。下面逐一拆解。

1 请求文档分段数量

这个参数很好理解：当你向大模型提问并启用知识库时，会有几个资料片段随问题一起提交给大模型。

CherryStudio默认值是6段，最大值可以设到30。但请注意——

绝不是越多越好

。为什么？因为有几个硬性限制在等着。

第一，token消耗（也就是金钱消耗）。

把鼠标悬停在问号上，官方提示写得很清楚：请求文档分段数量越多，附带信息越多，消耗的Token也越多。假设嵌入模型每个片段是500个字，粗略按500个token算，30段就是15000个token。参考DeepSeek官方价格（推理模型每百万token 4元），15000个token大约就是6分钱。

当然，对话不会只有一轮。多轮下来，就算考虑缓存命中，几毛钱的消耗也跑不掉。

第二，上下文长度限制。

DeepSeek-R1的上下文长度是64k，也就是64000个token。如果第一轮就塞进15000个token，那对话根本进行不了几轮，总上下文就会超标。超标后会怎样？如果还不清楚上下文长度的概念，建议先补一课。

第三，API接口限制。

有些API会限制每分钟的token使用总量。DeepSeek官方接口没有这个限制，但如果你用的是硅基流动提供的DeepSeek接口，就得多留个心眼。

硅基流动对普通版DeepSeek-R1的TPM限制是10000，也就是每分钟最多10000个token（Pro版是每分钟100万个，可以放心用）。试想，问题附带的资料就有15000个token，你的请求还能成功发出去吗？至于其他平台是否有类似限制，暂时没逐一核实，使用时多留心准没错。

第四，匹配度的限制。

就算前面三个问题都不存在，也不是想附带多少片段都行。这就引出了下面第二个参数。

2 匹配度阈值

之所以没按照界面从上到下的顺序介绍，而是把匹配度阈值放在第二个说，是因为它和“请求文档分段数量”共同决定了最终大模型能收到几个片段。

匹配度阈值就像一个筛子：只有匹配度高于某个百分比的片段，才有资格被提交给大模型。CherryStudio官方可能没有设置默认值，但根据经验，有些匹配度只有30%多的片段也会被搜到——这种基本没有参考价值。

这个参数的范围是0到1：0.1就是10%，0.5就是50%，1就是100%。一般情况下，设置在70%（即0.7）比较合理。但如果知识库资料不够多，设70%可能一条都匹配不到，这时可以适当降到60%或50%。再低，参考价值就大打折扣，纯粹是浪费token了。

所以，

“请求文档分段数量”并不能完全决定最终提交的片段数

，而是和匹配度阈值共同起作用。换句话说：有时匹配到了10个符合阈值的片段，但分段数量设的是6，那就只选匹配度最高的6个提交；有时分段数量设的是10，但只匹配到3个符合阈值的片段，那就只提交这3个。

3 分段大小

分段的问题之前介绍过，相信大家已经理解了。不理解什么是分段、为什么要分段的，建议先去回顾一下相关内容。

分段大小指的是每个片段的字数。这个参数，

官方不建议修改，也不建议自行调整

。因为分段太大，信息可能更完整，但容易夹带无用信息，干扰大模型分析；分段太小，搜索命中可能更精准，但又可能丢失关键信息，导致判断不准。很多嵌入模型都内置了智能算法，会根据文件类型和内容自动调整片段长度。此外，不同嵌入模型对片段长度的要求也不一样——如果设定的分段大小超过了模型的最大值，嵌入时必定出问题。所以，这个参数还是交给系统处理更省心。

4 重叠大小

重叠大小和分段大小密切相关。如果分段时只是简单粗暴地按每段500字直接切开，很多句子、段落都可能从中断裂，信息不完整。为了解决这个问题，允许相邻的两个片段在结尾和开头部分有一定内容重复（即重叠），从而减少被拆分的可能，优化分割效果。

在CherryStudio里，想设置重叠大小，必须先设置分段大小。既然分段大小不建议自己改，重叠大小自然也不建议手动调整。既然这两个值都没有动，官方那句“分段大小和重叠大小修改只针对新添加的内容有效”也就可以直接忽略了。