PDF文件如何转成markdown格式

最新推荐文章于 2025-06-14 10:16:57 发布

weixin_34019929

最新推荐文章于 2025-06-14 10:16:57 发布

阅读量295

点赞数

CC 4.0 BY-SA版权

文章标签： markdown

原文链接：https://segmentfault.com/a/1190000018267766

本文分享了一种将PDF文件转换为Markdown格式的实用方法，包括将PDF导出为Word文档，再利用typora转换为Markdown，并解决本地图片上传及替换的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

百度上根据pdf转makrdown为关键字进行搜索，结果大多数是反过来的转换，即markdown文本转PDF格式。

但是PDF转markdown的解决方案很少。

正好我工作上有这个需求，所以自己实现了一个解决方案。

下图是一个用PDF XChange Editor打开的PDF文件，我想将其内容通过markdown格式导出。

(1) 首先将该PDF导出成word格式，后缀.docx

(2）使用typora获得该word文档的markdown源代码：

此时任务只完成了一半，因为typora这个工具转换成的markdown格式，如果原始的word文档里包含图片，这些图片以本地图片的形式存在于markdown里，那我如果直接将包含了这些本地图片的标签的markdown发布到简书，优快云，开源中国，腾讯云，阿里云这些支持markdown的社区时，这些本地图片将无法显示。

因此我们必须找到一个高效的方法，将word里包含的本地图片先上传到网络上，再用生成的包含了图片网络url的markdown标签替换本地图片标签。
(3) 把word文件的后缀从.docx改成.zip, 解压后，在文件夹word的子文件夹media里能找到所有的本地文件。

把这些本地文件全部上传到网站，生成下面这些url：

我写了一个工具，可以把仅包含了本地图片标签的markdown源代码和包含了上述在线图片url标签的源代码做一个合并，后并后，本地图片标签会被在线图片标签取代：

这个工具可以从我github上获得：
https://github.com/i042416/Kn...

下图就是我的原始PDF转换成markdown格式后发布在某社区上的效果，和原始PDF外观完全一致：

要获取更多Jerry的原创文章，请关注公众号"汪子熙":