知识路由的功能
知识路由可以理解为自动知识问答前面的一个“预选器”。
当知识库中的文档越来越多时,如果每次都直接全库检索,不仅速度会变慢,还容易把不相关的文档一起召回出来。知识路由就是在真正检索之前,先帮系统判断:
- 当前问题属于哪个知识范围
- 这个范围下更像哪个知识主题
- 哪篇文档最适合作为回答依据
在页面上,也是按 范围 -> 主题 -> 画像 -> 关联 的顺序来配置的。只要把这四步配置清楚,后面的自动知识问答就能更稳定地命中正确文档。
1. 先进入知识路由页面
进入知识路由页面后,最上方会先看到一组总览数据:
知识范围:当前已经配置了多少个大类边界知识主题:范围下面已经沉淀了多少个可回答单元文档数:当前参与知识路由画像和元数据维护的文档数已补元数据文档:至少填写了范围、业务类目或标签的文档数已保存关联:已经建立好的主题和文档关联数量未关联主题:还没有绑定任何文档的主题数量
下面的 范围覆盖率统计 会展示每个知识范围的覆盖情况。可以看到 客服平台上线运营 和 XX-200智能网关 两个范围,并且每个范围下还能直接看到:
- 主题数量
- 已覆盖主题数
- 未关联主题数
- 文档数
这一块非常适合用来做“配置巡检”。如果某个范围下面的 未关联主题 不为 0,通常就说明后面的主题文档关联还没有配置完整。
右上角还有两个常用按钮:
刷新数据:手动刷新当前统计结果批量重建画像:当文档内容或元数据更新后,可以统一重新生成文档画像
2. 配置知识范围
在四步流程里,第一步就是 知识范围,它的作用是先把知识库按业务域划出边界。
页面上已经有两个很典型的例子:
客服平台上线运营XX-200智能网关
这里可以把知识范围理解成一个“一级分类”。它不应该写得太细,而应该足够稳定、足够概括。比如“客服平台上线运营”适合作为范围,但“灰度验证回滚流程”就更适合作为后面的知识主题,而不是范围本身。
页面支持按 范围编码、名称或描述 进行筛选。如果当前业务还没有对应的大类,可以点击右侧的 新建范围 按钮补充一个新的知识范围。
这里有一个比较重要的经验:先把范围定清楚,后面的主题、画像和关联配置才会更稳。 因为自动路由时,系统通常会先按范围做第一轮收敛。
3. 配置知识主题
知识范围确定之后,下一步就是给这个范围补充“可回答单元”,也就是 知识主题。
在知识主题页签中,先通过左侧下拉框选择某个范围,然后就可以查看该范围下已经配置好的主题列表。截图里选中的是 客服平台上线运营,下面展示了多个主题卡片,例如:
平台上线总流程知识采集与治理灰度验证与回滚上线观察与值班典型故障处理运营质量评估
每个主题卡片里,除了主题名称,还能直接看到两类非常关键的配置:
回答形式:比如步骤型回答、列表型回答执行偏好:比如普通检索优先
这两个配置会直接影响系统后续组织答案的方式。举个例子:
- 如果主题本身是一个流程类问题,例如“上线总流程”,那就更适合配置成
步骤型回答 - 如果主题更偏概念枚举或要点总结,例如“治理项有哪些”,那就更适合配置成
列表型回答
右上角的 新建主题 按钮用于新增主题。搜索框则支持按 主题编码、名称、别名或描述 去筛选已有主题。
3.1 查看主题详情
点击某个主题卡片后,可以打开该主题的详情侧栏。
从这张图里可以看出,一个完整的知识主题通常至少要维护这些信息:
主题编码:例如platform_go_live_process主题名称:例如平台上线总流程所属范围:例如customer_service_platform_ops回答形式执行偏好排序值描述别名典型问题
这些字段不是“可有可无”的补充信息,而是知识路由能不能配准的关键依据。
尤其建议把下面三类内容补完整:
描述:告诉系统这个主题到底覆盖什么问题别名:补足用户常见的不同叫法典型问题:直接提供用户真实会怎么问
比如截图中的主题 平台上线总流程,除了主题名本身,还补了:
- 别名:
上线流程、上线步骤、项目上线、上线里程碑 - 典型问题:
平台上线总流程有哪几个阶段、项目上线要经过哪些里程碑
这些内容一旦补全,知识路由在做主题匹配时,就不再只依赖一个简短标题,而是有更完整的判断依据。
4. 检查文档画像
前面配置了范围和主题,接下来还需要确认文档本身有没有被系统“理解清楚”。这一步对应第三个页签 文档画像。
从截图可以看到,文档画像详情里会展示一篇文档的核心信息,例如:
文档名称元数据摘要文档类型画像来源图能力核心主题数核心主题示例问题
这一步的作用是来确认系统是否已经从文档里提炼出足够清晰的路由线索。
比如截图中的这篇文档:
- 文档类型是
manual - 画像来源是
manual - 图能力是
outline / item / assist - 核心主题中已经能识别出
平台上线总流程、知识采集与治理、灰度验证与回滚、上线观察与值班等多个主题
如果你发现这里的摘要、核心主题或示例问题明显不准确,就说明这份文档的画像质量还不够好。这时可以使用页面里的:
查看画像:查看当前画像内容重新生成:重新生成这份文档的画像
一般来说,先让文档画像尽量准确,再做主题文档关联,后面的路由效果会更稳定。
5. 配置主题文档关联
当范围、主题、文档画像都准备好之后,就进入最后一步:主题文档关联。
此功能的作用是把“哪个主题该优先看哪份文档”显式维护下来,低置信自动路由时会直接受益。
这个是非常重要的,因为有些主题虽然可以通过语义匹配大概猜到文档,但如果你已经明确知道某个主题最应该命中哪篇文档,那就应该在这里把关系手动建好。
这个页面提供了几种常用操作:
- 先按范围切换查看当前业务域下的关联
- 再通过搜索框按
主题、文档、原因过滤结果 - 点击
新建关联新增一条主题和文档的绑定关系 - 点击
刷新重新拉取当前列表
6. 新建主题文档关联
点击 新建关联 后,会打开右侧的创建面板。
创建关联时需要填写的内容:
选择主题选择文档分数关联原因
这里的配置建议可以这样理解:
主题:告诉系统你要绑定的是哪一个知识主题文档:告诉系统这个主题最应该优先参考哪篇文档分数:代表这条关联关系的强弱,分数越高,通常优先级越高关联原因:建议写清楚“为什么这篇文档适合这个主题”,便于后续排查和维护
默认展示的是 0.9000,说明这类手工关联通常是以一个较高置信度建立的。填写完成后点击 保存 即可。
7. 查看关联结果
保存后,就可以在关联列表里看到最终的主题文档关系。
从结果图中可以看出几个很有价值的点:
- 同一个主题可以关联多篇文档
- 每条关联都会带上一个分数
- 每条关联后面都会展示一段关联原因
这类配置很适合复杂主题。因为在真实业务里,一个主题往往不只由一篇文档支撑,而是可能会涉及主文档、补充文档和边界文档。通过这种显式关联,系统在自动路由时就更容易先命中正确资料。
8. 常用的配置顺序
如果是第一次配置知识路由,建议按下面这个顺序来做:
8.1 先定知识范围
先按业务域把范围划清楚,不要一开始就把范围拆得过细。
8.2 再补知识主题
围绕“用户实际会问的问题”去设计主题,而不是直接照着文档章节名机械的来复制。
8.3 然后检查文档画像
确保摘要、核心主题、示例问题足够准确,不准确就先重建画像。
8.4 最后做主题文档关联
优先把高频主题、核心流程主题、容易混淆的主题先手动关联起来。
9. 配置知识路由时的几个建议
范围要稳定,尽量按业务域划分,不要用临时任务名充当范围主题要聚焦,一个主题最好只回答一类核心问题别名和典型问题尽量写成用户真实会输入的说法文档画像不准时,不要急着做关联,先重新生成画像关联原因不要只写“相关”,最好明确写出是流程覆盖、指标覆盖还是场景覆盖- 对于高价值主题,可以关联多篇文档,但最好通过分数拉开优先级
把这套配置维护好之后,自动知识问答就不再是“全库盲搜”,而会优先沿着你配置好的知识范围、知识主题和主题文档关系去收敛目标文档,最终让回答更准、速度更快、噪声更低。