将PDF转换成docx文件的Python库。该项目通过PyMuPDF库提取PDF文件中的数据,然后采用python-docx库解析内容的布局、段落、图片、表格等,最后自动生成docx文件。
pdf2docx功能
- 解析和创建页面布局- 页边距- 章节和分栏 (目前最多支持两栏布局)- 页眉和页脚 [TODO]- 解析和创建段落- OCR 文本 [TODO]- 水平(从左到右)或竖直(自底向上)方向文本- 字体样式例如字体、字号、粗/斜体、颜色- 文本样式例如高亮、下划线和删除线- 列表样式 [TODO]- 外部超链接- 段落水平对齐方式 (左/右/居中/分散对齐)及前后间距- 解析和创建图片- 内联图片- 灰度/RGB/CMYK等颜色空间图片- 带有透明通道图片- 浮动图片(衬于文字下方)- 解析和创建表格- 边框样式例如宽度和颜色- 单元格背景色- 合并单元格- 单元格垂直文本- 隐藏部分边框线的表格- 嵌套表格- 支持多进程转换
pdf2docx同时解析出了表格内容和样式,因此也可

最低0.47元/天 解锁文章
1654

被折叠的 条评论
为什么被折叠?



