解析结果统计与异步收尾

上一篇讲完了 structureNodeExtractor.extract() 的四阶段流水线。现在回到 TikaDocumentParserService.parse() 方法，继续按执行顺序往下走：拿到结构节点之后，还要做标题计数、段落切分、token 估算、结构等级评估和内容质量评估，最后把所有结果打包返回。

然后再回到 handleParseRoute，看解析完成后的收尾工作。

回到 parse()：结构节点之后的统计步骤

回顾一下 parse() 方法中，structureNodeExtractor.extract() 之后的代码：

// 结构节点由专门的提取器负责抽取，这些节点后面会参与导航和切块策略判断。
List<DocumentStructureNodeCandidate> structureNodes = structureNodeExtractor.extract(originalFileName, cleanedText);
int headingCount = countHeadings(cleanedText, structureNodes);

// 段落统计既用于结构判断，也用于后续策略推荐时判断是否适合语义切块。
List<String> paragraphList = extractParagraphs(cleanedText);

int maxParagraphLength = paragraphList.stream().mapToInt(String::length).max().orElse(0);

int charCount = cleanedText.length();

// token 数这里是估算值，不是精确 tokenizer 结果，但足够用于策略判断和粗粒度统计。
int tokenCount = estimateTokenCount(cleanedText);

int structureLevel = evaluateStructureLevel(headingCount, paragraphList.size());

int contentQualityLevel = evaluateContentQuality(cleanedText, charCount);

return new DocumentAnalysisResult(
    cleanedText,
    charCount,
    tokenCount,
    structureLevel,
    contentQualityLevel,
    headingCount,
    paragraphList.size(),
    maxParagraphLength,
    structureNodes
);

我们逐个展开。

countHeadings：标题数量统计

/**
 * 统计标题数量。
 * <p>
 * 如果结构提取器已经抽到了较可靠的 section 节点，则优先使用结构化结果；
 * 否则退回到逐行分类的启发式标题识别。
 * </p>
 */
private int countHeadings(String text,
                          List<DocumentStructureNodeCandidate> structureNodes) {
    if (structureNodes != null && !structureNodes.isEmpty()) {
        long structuredHeadingCount = structureNodes.stream()
            .filter(node -> node != null
                && DocumentStructureNodeTypeEnum.SECTION.getCode().equals(node.getNodeType())
                && node.getDepth() != null
                && node.getDepth() > 0)
            .count();
        if (structuredHeadingCount > 0) {
            return (int) structuredHeadingCount;
        }
    }
    int count = 0;
    for (String line : text.split("\n")) {
        if (documentLineClassifier.classify(line).isHeading()) {
            count++;
        }
    }
    return count;
}

标题计数有两条路径：

如果结构节点提取器已经识别出了 SECTION 类型的节点（depth > 0），直接用结构化结果，这个更准
如果结构节点没抽到，就退化成逐行扫描，用 DocumentLineClassifier 做启发式标题识别

退化路径里用到的 DocumentLineClassifier 是一个轻量级行分类器，它的 classify() 方法会根据当前行的文本形态给出 HEADING / LIST_ITEM / BODY 三种分类。具体的正则匹配规则包括 Markdown 标题（# xxx）、多级数字编号（1.2 xxx）、中文章节（第一章 xxx）、中文大纲（一、xxx）等模式。对于单级编号和中文大纲这种有歧义的模式，它还会通过 looksLikeHeadingContent() 做一层启发式判断——如果内容太长（> 24 字符）、包含句中标点（逗号、分号、冒号）、或者以句末标点结尾，就不认为是标题。

付费内容提示

该文档的全部内容仅对「JavaUp项目实战&技术讲解」知识星球用户开放

加入星球后，你可以获得：

超级八股文：100万+字的全栈技术知识库，涵盖技术核心、数据库、中间件、分布式等深度剖析的讲解
讲解文档：超级AI智能体、黑马点评Plus、大麦、大麦pro、大麦AI、流量切换、数据中台的从0到1的详细文档
讲解视频：超级AI智能体、黑马点评Plus、大麦、大麦pro、大麦AI、流量切换、数据中台的核心业务详细讲解
1 对 1 解答：可以对我进行1对1的问题提问，而不仅仅只限于项目
针对性服务：有没理解的地方，文档或者视频还没有讲到可以提出，本人会补充
面试与简历指导：提供面试回答技巧，项目怎样写才能在简历中具有独特的亮点
中间件环境：对于项目中需要使用的中间件，可直接替换成我提供的云环境
面试后复盘：小伙伴去面试后，如果哪里被面试官问住了，可以再找我解答
远程的解决：如果在启动项目遇到问题，本人可以帮你远程解决

进入星球后，即可享受上述所有服务，保证不会再有其他隐藏费用。

1. 打开微信 -> 扫描左侧二维码 -> 加入「JavaUp项目实战&技术讲解」知识星球

2. 查看星球使用指导，获取完整项目讲解资料索引

👉 点击解锁全部付费内容

回到 parse()：结构节点之后的统计步骤​

countHeadings：标题数量统计​

该文档的全部内容仅对「JavaUp项目实战&技术讲解」知识星球用户开放

回到 parse()：结构节点之后的统计步骤

countHeadings：标题数量统计