分片代码实战:Spring系列
前面讲了分块策略的理论和ChunkViz可视化实验,这篇开始写具体的实现代码。
Java生态中主要有三个框架支持文档分片:
| 框架 | 特点 | 推荐度 |
|---|---|---|
| Spring AI | 官方只提供TokenTextSplitter,功能较弱 | 入门可用 |
| Spring AI Alibaba | 扩展了Spring AI,支持递归分片 | 推荐 |
| LangChain4J | 功能最丰富,支持语义分片 | 进阶使用 |
Spring AI的TokenTextSplitter
框架原生能力
在Spring AI的ETL Pipeline模块中,TextSplitter是所有文本拆分器的抽象基类。但目前官方只提供了一个具体实现:TokenTextSplitter——按token数量拆分文本。
Spring AI的分片功能较弱
Spring AI的TokenTextSplitter有两个明显的缺陷:
- 不支持overlap(相邻块重叠),相邻文本块之间没有共享内容
- 不支持按段落或自然语言结构分割,只能按token数硬切
如果需要更高级的分片功能,要么用Spring AI Alibaba,要么用LangChain4J,要么自己实现。
核心参数
| 参数 | 说明 | 默认值 |
|---|---|---|
| chunkSize | 每个文本块的目标大小(以token为单位) | 800 |
| minChunkSizeChars | 每个文本块的最小字符数,太短的块会被丢弃或合并 | 350 |
| minChunkLengthToEmbed | 只有长度超过此值的块才会发送给向量模型 | 5 |
| maxNumChunks | 单个文档允许拆分出的最大块数 | 10000 |
| keepSeparator | 是否在块中保留分隔符(如换行符) | true |
付费内容提示
该文档的全部内容仅对「JavaUp项目实战&技术讲解」知识星球用户开放
加入星球后,你可以获得:
- 超级八股文:100万+字的全栈技术知识库,涵盖技术核心、数据库、中间件、分布式等深度剖析的讲解
- 讲解文档:超级AI智能体、黑马点评Plus、大麦、大麦pro、大麦AI、流量切换、数据中台的从0到1的详细文档
- 讲解视频:超级AI智能体、黑马点评Plus、大麦、大麦pro、大麦AI、流量切换、数据中台的核心业务详细讲解
- 1 对 1 解答:可以对我进行1对1的问题提问,而不仅仅只限于项目
- 针对性服务:有没理解的地方,文档或者视频还没有讲到可以提出,本人会补充
- 面试与简历指导:提供面试回答技巧,项目怎样写才能在简历中具有独特的亮点
- 中间件环境:对于项目中需要使用的中间件,可直接替换成我提供的云环境
- 面试后复盘:小伙伴去面试后,如果哪里被面试官问住了,可以再找我解答
- 远程的解决:如果在启动项目遇到问题,本人可以帮你远程解决
进入星球后,即可享受上述所有服务,保证不会再有其他隐藏费用。
