FinalTopK 裁剪与检索摘要生成

上一篇我们讲完了 Rerank 重排序，候选文档已经按照跨编码器给出的相关性分数重新排好了序。但是排好序不代表全部都能用——LLM 的上下文窗口是有限的，塞太多证据进去不仅浪费 token，还可能让模型"注意力分散"，反而降低回答质量。

这一篇我们来看 Rerank 之后的收尾工作：FinalTopK 裁剪、检索摘要生成、通道轨迹构建，以及 trace 观测记录的触发。

FinalTopK 裁剪

// 最终只保留 finalTopK 条证据进入 Prompt，避免证据过多撑爆上下文预算。
List<Document> finalDocuments = rerankedCandidates.stream()
    .limit(properties.getFinalTopK())
    .toList();

这段代码很简单：从 Rerank 排好序的候选列表里，只取前 finalTopK 条。

为什么要做这一步？

你可能会想：前面不是已经有证据闸门过滤了吗？为什么还要再砍一刀？

原因是这样的：证据闸门是按质量过滤（分数低于阈值的不要），而 FinalTopK 是按数量限制（质量再高，超过预算的也不要）。两者解决的是不同的问题：

证据闸门：过滤掉"不相关"的噪音文档
FinalTopK：控制"相关但太多"的情况，保护上下文预算

上下文预算

LLM 的上下文窗口是有限的。假设总共 8K token 的上下文预算，系统 Prompt 占了 2K，用户问题和历史对话占了 2K，那留给证据的只有 4K。如果每条证据平均 500 token，那最多只能放 8 条。finalTopK 就是这个"最多放几条"的配置。

付费内容提示

该文档的全部内容仅对「JavaUp项目实战&技术讲解」知识星球用户开放

加入星球后，你可以获得：

超级八股文：100万+字的全栈技术知识库，涵盖技术核心、数据库、中间件、分布式等深度剖析的讲解
讲解文档：超级AI智能体、黑马点评Plus、大麦、大麦pro、大麦AI、流量切换、数据中台的从0到1的详细文档
讲解视频：超级AI智能体、黑马点评Plus、大麦、大麦pro、大麦AI、流量切换、数据中台的核心业务详细讲解
1 对 1 解答：可以对我进行1对1的问题提问，而不仅仅只限于项目
针对性服务：有没理解的地方，文档或者视频还没有讲到可以提出，本人会补充
面试与简历指导：提供面试回答技巧，项目怎样写才能在简历中具有独特的亮点
中间件环境：对于项目中需要使用的中间件，可直接替换成我提供的云环境
面试后复盘：小伙伴去面试后，如果哪里被面试官问住了，可以再找我解答
远程的解决：如果在启动项目遇到问题，本人可以帮你远程解决

进入星球后，即可享受上述所有服务，保证不会再有其他隐藏费用。

1. 打开微信 -> 扫描左侧二维码 -> 加入「JavaUp项目实战&技术讲解」知识星球

2. 查看星球使用指导，获取完整项目讲解资料索引

👉 点击解锁全部付费内容