
当你发现RAG系统把整个《红楼梦》当成一个chunk塞进模型,最后吐出"林黛玉倒拔CPU"的鬼话时,就该明白文档预处理这关有多要命了。这活计就像给大象做解剖,既要懂十八般兵器,又得知道哪块骨头连着筋。今天咱们不聊风花雪月,直接上屠宰场实战手册。
一、文档加载:格式战争的修罗场
1.1 PDF的千层套路
你以为PyPDF2
能通吃天下?太年轻!去年处理某军工企业的加密PDF,我差点被安全局请去喝茶。现在我的PDF处理六件套:
- 常规PDF:
pypdf
拆骨抽筋
- 扫描件:
pdfplumber
+OCR
组合拳
- 加密文件:先用
qpdf
暴力破解(记得找法务签生死状)
- 表格杀手:
camelot
精准收割表格数据<