C#读取WORD 包含其中图片解决方案（包含WORD 转 HTML解决方案）

最新推荐文章于 2025-09-16 16:17:35 发布

原创

最新推荐文章于 2025-09-16 16:17:35 发布 · 2.6k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#word转html #word提取图片 #读WORD图片 #C#读取WORD

本文介绍了C#读取包含图片的WORD文档的三种方法：使用付费插件Free Spire.Doc，将DOCX转为RAR解压提取图片，以及利用开源库Mammoth实现转换为HTML，其中Mammoth方法被推荐为最实用，转换后的HTML图片以BASE64格式内嵌。

C#读WORD中文字容易，读取里面图片就有点小波折了

思路1：第三方插件，比如：Free Spire.Doc for .NET 这个深度应用要钱的，免费支持转换500段，通常也够了

思路2：WORD其实是压缩过的文件，转为后缀为RAR后，可以解压缩，然后从里面XML格式再提取文字和图片。

图片文件在路径：word\media

可以参考别人思路：https://blog.youkuaiyun.com/lishanleilixin/article/details/80967016

但是这个排版啥的也要费事

思路3：用第三方nuget下的轮子【尝试这个方法C#下最好用】

nuget下引用(备注需要.NET 4.5):Install-Package Mammoth -Version 1.4.0

轮子：mammoth （using Mammoth;）

核心代码：

            //Step1.将filepath下WORD先转为html
            filepath = Path.Combine(@"E:\news\test", "test.docx"); //程序在哪运行，就是哪台机器上执行

            var converter = new DocumentConverter();
            var result_fromword = converter.ConvertToHtml(filepath);
            var html = result_fromword.Value; // The generated HTML
            var warnings =