Python办公自动化 - docx库的使用
整理博客不易,如需转载请注明出处 😃!
https://blog.youkuaiyun.com/Lyun911/article/details/114440541
1 简介
1.1 docx库
安装:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple python-docx
文档:https://python-docx.readthedocs.io/en/latest/
功能:可以创建、修改Word(.docx)文件
1.2 docx文件结构
Word 的结构:
Document:文档
Paragraph:段落
Run:文字块:在每一个段落中,具有相同字体格式的连续内容 为一个Run
2 读取
作业1:词频计数
2.1 读取文件 docx.Document()
from docx import Document
# 读取 .docx 文件
doc = Document('doc_test.docx')
2.2 读取段落 doc.paragraphs
print(doc.paragraphs)
# [<docx.text.paragraph.Paragraph object at 0x000002A3FE9F7880>, <docx.text.paragraph.Paragraph object at 0x000002A3FE9F77C0>]
# 可以看出里面有两个段落
for p in doc.paragraphs:
print(p.text)
2.3 读取文字块 doc.runs
p = doc.paragraphs[1]
runs = p.runs
for run in runs:
print(run.text)
3 编辑
作业2:请假条
创建文档
添加:标题/ 文字块/ 分页/ 图片/ 表格
保存文档
3.1 创建文档
from docx import Document
from docx.shared import Cm
doc = Document()
3.2 添加标题
doc.add_heading('Title level 1', level = 1)
3.3 添加段落
para1 = doc.add_paragraph('added paragraph 1')# 赋值可以方便之后修改段落内容
doc.add_paragraph('added paragraph 2')# 也可以不赋