文档切片策略选择

假设你点了一个超大的披萨，18寸的那种。

直接抱着吃？不现实。得切成小块。

但怎么切有讲究：

文档分片也是同样的道理。

大模型的上下文窗口是有限的，一篇几万字的文档塞不进去。而且我们检索的时候，想找到的是最相关的那一小段，不是整篇文档。

所以要切块。但切多大、怎么切，直接影响后面的检索效果。

切大了切小了，都是问题

假设我把一篇5000字的文档切成5块，每块1000字。

问题一：检索不精准

用户问"打印机怎么换墨盒"，检索返回的那一块1000字里，可能只有100字是真正讲换墨盒的，其他900字讲的是打印机怎么联网、怎么设置纸张大小。

这900字就是噪音，会干扰大模型的判断。

问题二：超出上下文限制

检索返回5块，每块1000字，加上用户问题和系统提示词，总共可能有6000+字。

如果大模型的上下文窗口只有4096 tokens，直接就超了。

假设我切成50块，每块100字。

问题一：语义不完整

一句话被切成两半，前半句在A块，后半句在B块。

A块：如果打印机出现卡纸现象，请先
B块：关闭电源，然后打开后盖取出纸张。

单独检索到A块或B块，都是不完整的信息。

问题二：上下文丢失

有些内容需要结合上下文才能理解。比如：

上一段：XX-3000型号打印机支持双面打印。
这一段：该功能需要在驱动程序中开启。

如果"这一段"被单独切出来，"该功能"指的是什么就不清楚了。

没有标准答案，得看你的具体场景。

但有一些经验值可以参考：

分块大小经验值

通用起点：chunk_size = 500~1000字，overlap = chunk_size的10%~20%。宁可先设大一点，发现检索不精准再缩小。不同场景差异较大，最终要通过实际测试集来验证效果。

付费内容提示

加入星球后，你可以获得：

进入星球后，即可享受上述所有服务，保证不会再有其他隐藏费用。

1. 打开微信 -> 扫描左侧二维码 -> 加入「JavaUp项目实战&技术讲解」知识星球

2. 查看星球使用指导，获取完整项目讲解资料索引