关键词检索通道的执行流程
上一篇讲了向量检索通道,这篇来看关键词检索通道。两者结构类似,但关键词检索有自己的特点:ES 优先 + SQL fallback 的双路策略,以及一套动态打分机制。
KeywordRetrievalChannel.retrieve 源码
@Override
public RetrievalChannelResult retrieve(String subQuestion, ConversationExecutionPlan plan) {
// 调用 DocumentKnowledgeService 的关键词检索方法,topK 从配置中读取。
List<Document> documentList = documentKnowledgeService.keywordSearch(
documentRetrieveRequestFactory.build(subQuestion, plan, properties.getKeywordTopK())
);
// 返回通道结果,包含通道名称和检索到的文档列表。
return new RetrievalChannelResult(channelName(), documentList);
}
结构和向量通道一模一样,区别只是调的是 keywordSearch,topK 用的是 keywordTopK 配置。
keywordSearch 方法完整流程
@Override
public List<Document> keywordSearch(DocumentRetrieveRequest request) {
// 关键词检索同样要求问题、检索 query、文档范围和任务范围都有效。
if (!isSearchableRequest(request)) {
return List.of();
}
List<Long> documentIds = request.resolvedDocumentIds();
List<Long> taskIds = request.resolvedTaskIds();
// 文档描述信息用于给最终 Document 补充来源元数据。
Map<Long, KnowledgeDocumentDescriptor> descriptorMap = listDescriptorMap(documentIds);
// 统一解析结构化过滤条件,供 ES 分支和 SQL fallback 分支共用。
ResolvedMetadataScope resolvedScope = resolveMetadataScope(request);
if (resolvedScope.documentIds().isEmpty() || resolvedScope.taskIds().isEmpty()) {
return List.of();
}
// 构造一个带 resolved 范围的新请求,确保 ES 网关拿到的是最终过滤后的范围。
DocumentRetrieveRequest filteredRequest = new DocumentRetrieveRequest(
request.getQuestion(),
request.getRetrievalQuery(),
resolvedScope.documentIds().isEmpty() ? null : resolvedScope.documentIds().get(0),
resolvedScope.taskIds().isEmpty() ? null : resolvedScope.taskIds().get(0),
request.getTopK(),
resolvedScope.filters(),
request.getQueryContextHints()
);
filteredRequest.setDocumentIds(resolvedScope.documentIds());
filteredRequest.setTaskIds(resolvedScope.taskIds());
// 如果项目启用了 Elasticsearch 且对应网关可用,则优先使用 ES 关键词检索。
DocumentKeywordSearchGateway keywordSearchGateway = keywordSearchGatewayProvider.getIfAvailable();
if (Boolean.TRUE.equals(properties.getElasticsearch().getEnabled()) && keywordSearchGateway != null) {
return keywordSearchGateway.search(filteredRequest);
}
这里有一个关键的分支判断:ES 优先策略。
如果满足两个条件:
- 配置中启用了 Elasticsearch(
properties.getElasticsearch().getEnabled() == true) - ES 网关可用(
keywordSearchGateway != null)
就会优先使用 ES 进行关键词检索,否则降级到 SQL LIKE fallback。
付费内容提示
该文档的全部内容仅对「JavaUp项目实战&技术讲解」知识星球用户开放
加入星球后,你可以获得:
- 超级八股文:100万+字的全栈技术知识库,涵盖技术核心、数据库、中间件、分布式等深度剖析的讲解
- 讲解文档:超级AI智能体、黑马点评Plus、大麦、大麦pro、大麦AI、流量切换、数据中台的从0到1的详细文档
- 讲解视频:超级AI智能体、黑马点评Plus、大麦、大麦pro、大麦AI、流量切换、数据中台的核心业务详细讲解
- 1 对 1 解答:可以对我进行1对1的问题提问,而不仅仅只限于项目
- 针对性服务:有没理解的地方,文档或者视频还没有讲到可以提出,本人会补充
- 面试与简历指导:提供面试回答技巧,项目怎样写才能在简历中具有独特的亮点
- 中间件环境:对于项目中需要使用的中间件,可直接替换成我提供的云环境
- 面试后复盘:小伙伴去面试后,如果哪里被面试官问住了,可以再找我解答
- 远程的解决:如果在启动项目遇到问题,本人可以帮你远程解决
进入星球后,即可享受上述所有服务,保证不会再有其他隐藏费用。
