元数据的详细解析

上一篇聊了文档分块的各种姿势，把长文档切成小块之后，你会发现一个问题：每个块就剩一段光秃秃的文字，完全不知道它从哪来、该给谁看、出了问题怎么找。这就像把一本书撕成碎片，每片纸上虽然有字，但没人知道这是哪本书的第几页。

这篇就来聊聊怎么给这些文本块"上户口"——也就是元数据管理。

先看个翻车现场

假设你在做一个医疗健康问答系统，知识库里存了各种医学资料：

系统上线后，用户可以直接问问题，AI 从知识库检索相关内容后生成回答。听起来挺美好，但真跑起来，问题一个接一个。

张阿姨问："布洛芬一天最多能吃几次？"

系统回答："布洛芬每日不超过3次，每次间隔4-6小时。"

张阿姨追问："这是哪个说明书上写的？我想截图发给我老伴看。"

系统："……"

系统确实从知识库检索到了正确答案，但这个文本块只有内容，没记录它来自哪份药品说明书、第几页、什么时候更新的。系统知道答案，却说不出依据。

这在医疗场景是大问题

涉及用药安全，没有出处的回答用户不敢信。万一出了问题，连追溯都没法追溯。

李先生问："阿莫西林的用量是多少？"

系统回答："体重20kg以下的儿童，每次125mg，每日3次……"

问题来了：李先生是成年人，他想知道的是成人剂量，系统却返回了儿科的用药方案。更糟糕的是，如果有些处方药信息本来只能给医生看，现在普通用户也能查到了。

系统在检索时没做任何区分，不管是成人指南还是儿童指南，不管是公开信息还是医生专用资料，只要语义相关就一股脑返回。

运营反馈："有用户说系统推荐的某个药物剂量偏高，可能是过时信息。"

技术团队想修正，但问题来了：知识库里几万个文本块，到底是哪个块有问题？这个块是从哪份文档切出来的？什么时候入库的？

如果每个块都没记录来源和位置，要定位问题就像在垃圾堆里找一颗芝麻。

三个翻车场景，指向同一个问题：光有文本内容是不够的。每个文本块还需要一堆"身份信息"，告诉系统这段话从哪来、给谁看、怎么追溯。

这些身份信息，就是元数据（Metadata）。

付费内容提示

加入星球后，你可以获得：

进入星球后，即可享受上述所有服务，保证不会再有其他隐藏费用。

1. 打开微信 -> 扫描左侧二维码 -> 加入「JavaUp项目实战&技术讲解」知识星球

2. 查看星球使用指导，获取完整项目讲解资料索引