跳到主要内容

四种切块策略详解

上一篇我们看到,不管是父块还是子块,最终都会走到 executePipeline() 这个流水线执行引擎。这篇我们就深入这个引擎内部,逐个拆解结构切块、递归切块、语义切块、LLM 切块四种策略的完整实现。

先上一张四种策略的全景关系图:

策略全景与降级关系

四种切块策略全景与降级关系
四种切块策略全景与降级关系
流水线串行 vs 降级

这张图里有两种说明。

串行:方案里配了哪些步骤,就按顺序依次执行,前一步的输出是后一步的输入。

降级:某种策略在执行过程中发现自己无法产出有效结果时,会自动退回到另一种策略兜底。这两种机制是独立的,降级发生在单个策略内部,不影响流水线的整体推进。

executePipeline:流水线执行引擎

这是所有切块策略的调度中心。它接收一组候选块和一组有序的策略步骤,然后按顺序逐步执行,每一步的输出作为下一步的输入。

DocumentStrategyServiceImpl.java — executePipeline()

private List<ChunkCandidate> executePipeline(List<ChunkCandidate> sourceList,
List<SuperAgentDocumentStrategyStep> orderedSteps,
DocumentStrategyPipelineTypeEnum pipelineType) {
// 进入流水线前先清洗一次输入,保证每一步面对的都是可用候选块。
List<ChunkCandidate> currentChunks = cleanupChunkList(sourceList);
for (SuperAgentDocumentStrategyStep step : orderedSteps) {
DocumentStrategyTypeEnum strategyType = DocumentStrategyTypeEnum.getRc(step.getStrategyType());
if (strategyType == null) {
continue;
}
// 根据策略类型分派到对应切块器:结构、递归、语义、LLM。
currentChunks = switch (strategyType) {
case STRUCTURE -> applyStructureChunking(currentChunks, pipelineType);
case RECURSIVE -> applyRecursiveChunking(currentChunks, pipelineType);
case SEMANTIC -> applySemanticChunking(currentChunks, pipelineType);
case LLM -> applyLlmChunking(currentChunks, pipelineType);
};
// 每一步执行完立刻清洗,保证下游步骤不会处理无效或重复块。
currentChunks = cleanupChunkList(currentChunks);
}
return cleanupChunkList(currentChunks);
}

这个方法的设计非常简洁,但有几个关键点:

  1. 三次清洗:进入前清洗一次、每步执行后清洗一次、最终返回前再清洗一次。cleanupChunkList() 会去掉空文本块和重复块,保证每一步拿到的都是干净数据
  2. switch 分派:用 Java 17 的 switch 表达式按策略类型分派,四种策略各自独立实现,互不耦合
  3. 流水线语义:前一步的输出就是后一步的输入。比如方案配了"结构切块 → 递归切块",那结构切块产出的章节块会作为递归切块的输入,递归切块再把超长的章节块切成更小的片段
  4. pipelineType 透传:父块流水线和子块流水线共用同一个引擎,通过 pipelineType 参数区分,各策略内部会根据这个参数选择不同的阈值(比如父块的 maxChars 通常比子块大)

付费内容提示

该文档的全部内容仅对「JavaUp项目实战&技术讲解」知识星球用户开放

加入星球后,你可以获得:

  • 超级八股文:100万+字的全栈技术知识库,涵盖技术核心、数据库、中间件、分布式等深度剖析的讲解
  • 讲解文档:超级AI智能体、黑马点评Plus、大麦、大麦pro、大麦AI、流量切换、数据中台的从0到1的详细文档
  • 讲解视频:超级AI智能体、黑马点评Plus、大麦、大麦pro、大麦AI、流量切换、数据中台的核心业务详细讲解
  • 1 对 1 解答:可以对我进行1对1的问题提问,而不仅仅只限于项目
  • 针对性服务:有没理解的地方,文档或者视频还没有讲到可以提出,本人会补充
  • 面试与简历指导:提供面试回答技巧,项目怎样写才能在简历中具有独特的亮点
  • 中间件环境:对于项目中需要使用的中间件,可直接替换成我提供的云环境
  • 面试后复盘:小伙伴去面试后,如果哪里被面试官问住了,可以再找我解答
  • 远程的解决:如果在启动项目遇到问题,本人可以帮你远程解决
进入星球后,即可享受上述所有服务,保证不会再有其他隐藏费用。
知识星球二维码

1. 打开微信 -> 扫描左侧二维码 -> 加入「JavaUp项目实战&技术讲解」知识星球

2. 查看星球使用指导,获取完整项目讲解资料索引

👉 点击解锁全部付费内容
🎁优惠