【实战指南】从提升AI知识库效果，从PDF转Markdown开始

最新推荐文章于 2025-06-28 21:03:34 发布

原创

最新推荐文章于 2025-06-28 21:03:34 发布 · 1.8k 阅读

·

14

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #pdf #语言模型 #NLP #llm #ai

经常有人抱怨AI知识库精确度不够、答非所问。我有时候想想，会觉得其实AI也挺冤的，因为很有可能不是它能力不行，而是你一开始给的文档就有问题，导致它提取文本有错误、不完整，那后边一连串的检索、生成怎么可能好呢？

比如最常见的PDF格式，我们阅读起来是没啥难度，但大模型要提取文本就遭罪了。

第一，PDF的结构很复杂，有文本、有图像、有表格，还有字体和布局信息。大模型很难理清楚这些结构，自然也就不好从中提取出文本来。

第二，不同PDF可能使用不同的字符编码，这会导致文本解析错误。

第三，即使成功提取出文本，也可能丢失段落、标题这些很重要的信息，造成对内容的理解出现差错。

所以，要提升AI知识库的效果，先把PDF转换成方便大模型提取文本的格式。本期视频我介绍两个工具。一个是Mathpix，现成的产品，我在newtype社群里推荐过。另一个是Marker，更早之前我也在社群内推荐过。正好有小伙伴问具体怎么部署，我一会儿就具体讲讲。

先来看Mathpix。

这款产品桌面端和移动端都有。我用的是网页版。它支持上传PDF和图片。PDF的话，一般是论文；图片的话，一般是手写的笔记或者老师的板书。导入资料后，它会进行识别，然后要么存在软件里作为一条笔记、多端同步，要么导出成Markdown、Word等格式。

作为测试，我这边上传一篇大概8页的论文，它里边包含了PDF最常见的复杂格式。大概几秒钟，Mathpix就处理完成了。然后选择导出Markdown，就能得到一个md格式的文件。

把它放到Obsidian里，可以看到，转换效果挺不错的：原本分成左右两栏的内容，它都给归到一栏里；小标题、分段、表格什么的都在。

我之所以选择Obsidian是因为，它的笔记本来就是md格式，并且Copilot这款AI插件有RAG功能。现在有了PDF转Markdown的工具，以后我对论文的阅读、消化还有记笔记就可以在一个软件里搞定了。

如果你是STEM学生或者科研工作者，肯定会爱死Mathpix——一键OCR就可以输出LaTeX公式太方便了。如果你有大量PDF文档想喂给大模型作为参考资料，也可以考虑订阅，一个月不到5美金。

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。