解析结果统计与异步收尾
上一篇讲完了 structureNodeExtractor.extract() 的四阶段流水线。现在回到 TikaDocumentParserService.parse() 方法,继续按执行顺序往下走:拿到结构节点之后,还要做标题计数、段落切分、token 估算、结构等级评估和内容质量评估,最后把所有结果打包返回。
然后再回到 handleParseRoute,看解析完成后的收尾工作。
回到 parse():结构节点之后的统计步骤
回顾一下 parse() 方法中,structureNodeExtractor.extract() 之后的代码:
// 结构节点由专门的提取器负责抽取,这些节点后面会参与导航和切块策略判断。
List<DocumentStructureNodeCandidate> structureNodes = structureNodeExtractor.extract(originalFileName, cleanedText);
int headingCount = countHeadings(cleanedText, structureNodes);
// 段落统计既用于结构判断,也用于后续策略推荐时判断是否适合语义切块。
List<String> paragraphList = extractParagraphs(cleanedText);
int maxParagraphLength = paragraphList.stream().mapToInt(String::length).max().orElse(0);
int charCount = cleanedText.length();
// token 数这里是估算值,不是精确 tokenizer 结果,但足够用于策略判断和粗粒度统计。
int tokenCount = estimateTokenCount(cleanedText);
int structureLevel = evaluateStructureLevel(headingCount, paragraphList.size());
int contentQualityLevel = evaluateContentQuality(cleanedText, charCount);
return new DocumentAnalysisResult(
cleanedText,
charCount,
tokenCount,
structureLevel,
contentQualityLevel,
headingCount,
paragraphList.size(),
maxParagraphLength,
structureNodes
);
我们逐个展开。
countHeadings:标题数量统计
/**
* 统计标题数量。
* <p>
* 如果结构提取器已经抽到了较可靠的 section 节点,则优先使用结构化结果;
* 否则退回到逐行分类的启发式标题识别。
* </p>
*/
private int countHeadings(String text,
List<DocumentStructureNodeCandidate> structureNodes) {
if (structureNodes != null && !structureNodes.isEmpty()) {
long structuredHeadingCount = structureNodes.stream()
.filter(node -> node != null
&& DocumentStructureNodeTypeEnum.SECTION.getCode().equals(node.getNodeType())
&& node.getDepth() != null
&& node.getDepth() > 0)
.count();
if (structuredHeadingCount > 0) {
return (int) structuredHeadingCount;
}
}
int count = 0;
for (String line : text.split("\n")) {
if (documentLineClassifier.classify(line).isHeading()) {
count++;
}
}
return count;
}
标题计数有两条路径:
- 如果结构节点提取器已经识别出了
SECTION类型的节点(depth > 0),直接用结构化结果,这个更准 - 如果结构节点没抽到,就退化成逐行扫描,用
DocumentLineClassifier做启发式标题识别
退化路径里用到的 DocumentLineClassifier 是一个轻量级行分类器,它的 classify() 方法会根据当前行的文本形态给出 HEADING / LIST_ITEM / BODY 三种分类。具体的正则匹配规则包括 Markdown 标题(# xxx)、多级数字编号(1.2 xxx)、中文章节(第一章 xxx)、中文大纲(一、xxx)等模式。对于单级编号和中文大纲这种有歧义的模式,它还会通过 looksLikeHeadingContent() 做一层启发式判断——如果内容太长(> 24 字符)、包含句中标点(逗号、分号、冒号)、或者以句末标点结尾,就不认为是标题。
付费内容提示
该文档的全部内容仅对「JavaUp项目实战&技术讲解」知识星球用户开放
加入星球后,你可以获得:
- 超级八股文:100万+字的全栈技术知识库,涵盖技术核心、数据库、中间件、分布式等深度剖析的讲解
- 讲解文档:超级AI智能体、黑马点评Plus、大麦、大麦pro、大麦AI、流量切换、数据中台的从0到1的详细文档
- 讲解视频:超级AI智能体、黑马点评Plus、大麦、大麦pro、大麦AI、流量切换、数据中台的核心业务详细讲解
- 1 对 1 解答:可以对我进行1对1的问题提问,而不仅仅只限于项目
- 针对性服务:有没理解的地方,文档或者视频还没有讲到可以提出,本人会补充
- 面试与简历指导:提供面试回答技巧,项目怎样写才能在简历中具有独特的亮点
- 中间件环境:对于项目中需要使用的中间件,可直接替换成我提供的云环境
- 面试后复盘:小伙伴去面试后,如果哪里被面试官问住了,可以再找我解答
- 远程的解决:如果在启动项目遇到问题,本人可以帮你远程解决
进入星球后,即可享受上述所有服务,保证不会再有其他隐藏费用。
