docx2markdown,使用 python 把 docx 文件转换为 markdown

部署运行你感兴趣的模型镜像

版权归作者所有,如有转发,请注明文章出处:https://cyrus-studio.github.io/blog/

docx2markdown

docx2markdown 是一个可以把 docx 文件中内容转换为 markdown 的 python 库。

目前支持:

  • 一级到六级标题
  • 文本和样式
  • 超链接
  • 代码块
  • 有序列表
  • 无序列表
  • 表格
  • 图片

使用示例:

import os
from docx2markdown.docx_to_markdown_converter import docx_to_markdown

# docx 文件路径
docx = os.path.join(os.path.dirname(os.path.abspath(__file__)), '测试.docx')

# markdown 文件输出路径
output = os.path.join(os.path.dirname(os.path.abspath(__file__)), '测试.md')

# 开始转换
docx_to_markdown(docx, output)

docx 文档

转换后的 markdown
在这里插入图片描述

生成分发文件

在项目根目录下运行以下命令来生成分发文件(tar.gz 和 .whl 文件)

python setup.py sdist bdist_wheel

上传到 PyPI

twine upload dist/*

本地安装

通过以下命令将项目安装到当前 python 环境中:

pip install /path/to/docx2markdown

如果你在开发过程中,并且希望对项目做的修改即时生效,可以使用 -e(editable)选项进行安装:

pip install -e /path/to/docx2markdown

这样会创建一个指向项目源代码的符号链接,每次修改源代码时,项目会自动更新。

源码

https://github.com/CYRUS-STUDIO/docx2markdown

您可能感兴趣的与本文相关的镜像

Python3.8

Python3.8

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

使用`wxPython`、`markdown2`和`python-docx`实现Markdown转Word,下面是一个示例代码: ```python import wx import markdown2 from docx import Document class MarkdownToDocxFrame(wx.Frame): def __init__(self, parent, title): super(MarkdownToDocxFrame, self).__init__(parent, title=title, size=(600, 400)) panel = wx.Panel(self) self.text_ctrl = wx.TextCtrl(panel, style=wx.TE_MULTILINE, size=(580, 300)) convert_button = wx.Button(panel, label="转换为DOCX", pos=(250, 320)) convert_button.Bind(wx.EVT_BUTTON, self.on_convert) sizer = wx.BoxSizer(wx.VERTICAL) sizer.Add(self.text_ctrl, proportion=1, flag=wx.EXPAND | wx.ALL, border=10) sizer.Add(convert_button, flag=wx.ALIGN_CENTER | wx.BOTTOM, border=10) panel.SetSizer(sizer) self.Centre() self.Show() def on_convert(self, event): markdown_text = self.text_ctrl.GetValue() html_text = markdown2.markdown(markdown_text) doc = Document() doc.add_paragraph(html_text) save_dialog = wx.FileDialog(self, "保存为DOCX文件", wildcard="DOCX文件 (*.docx)|*.docx", style=wx.FD_SAVE | wx.FD_OVERWRITE_PROMPT) if save_dialog.ShowModal() == wx.ID_OK: file_path = save_dialog.GetPath() doc.save(file_path) wx.MessageBox("转换成功,文件已保存到:" + file_path, "提示", wx.OK | wx.ICON_INFORMATION) save_dialog.Destroy() if __name__ == '__main__': app = wx.App() MarkdownToDocxFrame(None, "MarkdownDOCX") app.MainLoop() ``` 上述代码创建了一个简单的`wxPython`界面,包含一个多行文本框用于输入Markdown文本,以及一个按钮用于触发转换操作。点击按钮后,将Markdown文本转换为HTML,然后使用`python-docx`创建一个Word文档并将HTML内容添加进去,最后保存为DOCX文件。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值