文档预处理读取清洗与标准化
下厨房做饭,第一步是什么?
不是开火,不是切菜,而是洗菜。
买回来的青菜上面有泥土、虫子、农药残留,不洗干净直接下锅,做出来的菜能好吃吗?
RAG也是一样的道理。
企业里的文档五花八门——PDF里混着图片和表格,Word里有批注和修订记录,网页上有广告和导航栏,Markdown里有各种格式标记。
这些"脏东西"不清理干净,后面的切块、向量化、检索全都会受影响。
垃圾进,垃圾出——这是RAG领域最经典的一句话。
核心原则
垃圾进,垃圾出(Garbage In, Garbage Out) 是RAG最重要的工程原则。文档预处理是整个RAG链路的地基,这一步做不好,后面的切块、向量化、检索再怎么优化也是在烂地基上盖楼。
三部曲概览
文档预处理这个活儿,我把它给总结成了三部曲:
- 读取:把各种格式的文档加载进来
- 清洗:去掉无用的内容和干扰字符
- 标准化:统一成后续流程能处理的格式
听起来简单,实际做起来坑是不少的。下面来一个个讲。
付费内容提示
该文档的全部内容仅对「JavaUp项目实战&技术讲解」知识星球用户开放
加入星球后,你可以获得:
- 超级八股文:100万+字的全栈技术知识库,涵盖技术核心、数据库、中间件、分布式等深度剖析的讲解
- 讲解文档:超级AI智能体、黑马点评Plus、大麦、大麦pro、大麦AI、流量切换、数据中台的从0到1的详细文档
- 讲解视频:超级AI智能体、黑马点评Plus、大麦、大麦pro、大麦AI、流量切换、数据中台的核心业务详细讲解
- 1 对 1 解答:可以对我进行1对1的问题提问,而不仅仅只限于项目
- 针对性服务:有没理解的地方,文档或者视频还没有讲到可以提出,本人会补充
- 面试与简历指导:提供面试回答技巧,项目怎样写才能在简历中具有独特的亮点
- 中间件环境:对于项目中需要使用的中间件,可直接替换成我提供的云环境
- 面试后复盘:小伙伴去面试后,如果哪里被面试官问住了,可以再找我解答
- 远程的解决:如果在启动项目遇到问题,本人可以帮你远程解决
进入星球后,即可享受上述所有服务,保证不会再有其他隐藏费用。
