跳到主要内容

分片代码实战：Spring系列

前面讲了分块策略的理论和ChunkViz可视化实验，这篇开始写具体的实现代码。

Java生态中主要有三个框架支持文档分片：

框架	特点	推荐度
Spring AI	官方只提供TokenTextSplitter，功能较弱	入门可用
Spring AI Alibaba	扩展了Spring AI，支持递归分片	推荐
LangChain4J	功能最丰富，支持语义分片	进阶使用

Spring AI的TokenTextSplitter

框架原生能力

在Spring AI的ETL Pipeline模块中，TextSplitter是所有文本拆分器的抽象基类。但目前官方只提供了一个具体实现：TokenTextSplitter——按token数量拆分文本。

Spring AI的分片功能较弱

Spring AI的TokenTextSplitter有两个明显的缺陷：

不支持overlap（相邻块重叠），相邻文本块之间没有共享内容
不支持按段落或自然语言结构分割，只能按token数硬切

如果需要更高级的分片功能，要么用Spring AI Alibaba，要么用LangChain4J，要么自己实现。

核心参数

参数	说明	默认值
chunkSize	每个文本块的目标大小（以token为单位）	800
minChunkSizeChars	每个文本块的最小字符数，太短的块会被丢弃或合并	350
minChunkLengthToEmbed	只有长度超过此值的块才会发送给向量模型	5
maxNumChunks	单个文档允许拆分出的最大块数	10000
keepSeparator	是否在块中保留分隔符（如换行符）	true

付费内容提示

该文档的全部内容仅对「JavaUp项目实战&技术讲解」知识星球用户开放

加入星球后，你可以获得：

超级八股文：100万+字的全栈技术知识库，涵盖技术核心、数据库、中间件、分布式等深度剖析的讲解
讲解文档：超级AI智能体、黑马点评Plus、大麦、大麦pro、大麦AI、流量切换、数据中台的从0到1的详细文档
讲解视频：超级AI智能体、黑马点评Plus、大麦、大麦pro、大麦AI、流量切换、数据中台的核心业务详细讲解
1 对 1 解答：可以对我进行1对1的问题提问，而不仅仅只限于项目
针对性服务：有没理解的地方，文档或者视频还没有讲到可以提出，本人会补充
面试与简历指导：提供面试回答技巧，项目怎样写才能在简历中具有独特的亮点
中间件环境：对于项目中需要使用的中间件，可直接替换成我提供的云环境
面试后复盘：小伙伴去面试后，如果哪里被面试官问住了，可以再找我解答
远程的解决：如果在启动项目遇到问题，本人可以帮你远程解决

进入星球后，即可享受上述所有服务，保证不会再有其他隐藏费用。

知识星球二维码

1. 打开微信 -> 扫描左侧二维码 -> 加入「JavaUp项目实战&技术讲解」知识星球

2. 查看星球使用指导，获取完整项目讲解资料索引

👉 点击解锁全部付费内容

Spring AI的TokenTextSplitter
- 框架原生能力
- 核心参数

🎁优惠