python处理Word

部署运行你感兴趣的模型镜像

目录

docx库官方使用文档地址

打开关闭文档

添加段落

插入段落

添加标题

添加分页符

添加表格

填写单元格

表格大小

表格添加行

合并单元格

表格样式

添加图片

图片大小

段落样式

应用粗体和斜体

应用字符样式

常见错误


docx库官方使用文档地址

https://python-docx.readthedocs.io/en/latest/index.html

打开关闭文档

from docx import Document

document = Document('文件名1')    #也可以为空
document.save('文件名2')          #文件名1于文件名2可以相同,也可以不同

添加段落

paragraph = document.add_paragraph('Lorem ipsum dolor sit amet.')

此方法在文章末尾添加一个段落,并返回该段落,可接收返回值用于继续编辑该段落。

插入段落

prior_paragraph = paragraph.insert_paragraph_before('Lorem ipsum')

也可以在文章中间插入段落

添加标题

document.add_heading('The REAL meaning of the universe')
document.add_heading('The role of dolphins', level=2)

添加分页符

document.add_page_break()

添加表格

table = document.add_table(rows=2, cols=2)

表格有几个重要属性和方法来填充它们,可以通过行和列索引访问单元格:

cell = table.cell(0, 1)

填写单元格

cell.text = 'parrot, possibly dead'

通常一次访问一行单元格会更容易,例如从数据源填充可变长度的表时。 表的 .rows 属性提供对单个行的访问,每行都有一个 .cells 属性。 Row Column 上的 .cells 属性都支持索引访问,就像一个列表:

row = table.rows[1]
row.cells[0].text = 'Foo bar to you.'
row.cells[1].text = 'And a hearty foo bar to you too sir!'

表格上的 .rows .columns 集合是可迭代的,因此可以直接在 for 循环中使用它们。 与行或列上的 .cells 序列相同:

for row in table.rows:
    for cell in row.cells:
        print(cell.text)

表格大小

row_count = len(table.rows)
col_count = len(table.columns)

表格添加行

row = table.add_row()

合并单元格

table.cell(0,0).merge(table.cell(2,2))

例子:

# get table data -------------
items = (
    (7, '1024', 'Plush kittens'),
    (3, '2042', 'Furbees'),
    (1, '1288', 'French Poodle Collars, Deluxe'),
)

# add table ------------------
table = document.add_table(1, 3)

# populate header row --------
heading_cells = table.rows[0].cells
heading_cells[0].text = 'Qty'
heading_cells[1].text = 'SKU'
heading_cells[2].text = 'Description'

# add a data row for each item
for item in items:
    cells = table.add_row().cells
    cells[0].text = str(item.qty)
    cells[1].text = item.sku
    cells[2].text = item.desc

表格样式

table.style = 'LightShading-Accent1'

添加图片

document.add_picture('image-filename.png')

图片大小

默认情况下,添加的图像以原始大小显示。 这通常比您想要的要大:

from docx.shared import Inches
document.add_picture('image-filename.png', width=Inches(1.0))

您可以自由指定宽度和高度,但通常您不想这样做。 如果您只指定一个,python-docx 将使用它来计算另一个的正确缩放值。 这样可以保留纵横比,并且您的图片看起来不会被拉伸。

提供 Inches Cm 类让您以方便的单位指定测量值。 在内部,python-docx 使用英制公制单位,914400 到英寸。 因此,如果您忘记并只输入 width=2 之类的内容,您将得到一个非常小的图像:)

段落样式

可以在创建段落时立即应用段落样式:

document.add_paragraph('Lorem ipsum dolor sit amet.', style='ListBullet')

这种特殊的样式使段落显示为项目符号,这是一件非常方便的事情。 您也可以在之后应用样式。 这两行相当于上面的一行:

paragraph = document.add_paragraph('Lorem ipsum dolor sit amet.')
paragraph.style = 'List Bullet'

应用粗体和斜体

为了理解粗体和斜体的工作原理,您需要对段落内部发生的事情有所了解。 可以这么理解:

1. 段落包含所有块级格式,例如缩进、行高、制表符等。

2. 在运行级别应用字符级格式,例如粗体和斜体。 段落中的所有内容都必须在一个段落中,但可以不止一个。 所以中间有一个粗体字的段落需要三遍,一个正常的,一个包含这个词的粗体,另一个是正常的后面的文本。r

.add_paragraph() 方法提供文本来添加段落时,它会被放入一次运行中。可以在段落上使用 .add_run() 方法添加更多内容:

paragraph = document.add_paragraph('Lorem ipsum ')
paragraph.add_run('dolor sit amet.')

paragraph = document.add_paragraph('Lorem ipsum ')
run = paragraph.add_run('dolor')
run.bold = True
paragraph.add_run(' sit amet.')

这会产生如下所示的文本:“Lorem ipsum dolor sat amet。” 请注意,如果您不需要其他任何东西,您可以在 .add_run() 的结果上设置粗体或斜体:

paragraph.add_run('dolor').bold = True

等于:

run = paragraph.add_run('dolor')
run.bold = True

如果您无论如何都要从运行中构建段落,没有必要为 .add_paragraph() 方法提供文本,这可以使您的代码更简单:

paragraph = document.add_paragraph()
paragraph.add_run('Lorem ipsum ')
paragraph.add_run('dolor').bold = True
paragraph.add_run(' sit amet.')

应用字符样式

除了指定一组段落级别设置的段落样式之外,Word 还具有指定一组运行级别设置的字符样式。 通常,您可以将字符样式视为指定字体,包括字体、大小、颜色、粗体、斜体等。

与段落样式一样,字符样式必须已在使用 Document() 调用打开的文档中定义。

添加新运行时可以指定字符样式:

paragraph = document.add_paragraph('Normal text, ')
paragraph.add_run('text with emphasis.', 'Emphasis')

您还可以在创建运行后将样式应用到运行。 此代码产生与上面几行相同的结果:

paragraph = document.add_paragraph('Normal text, ')
run = paragraph.add_run('text with emphasis.')
run.style = 'Emphasis'

与段落样式一样,样式名称与其在 Word UI 中显示的一样。

常见错误

import docx 

报错 moduleNotFoundError:No module named 'exceptions'的解决方法

解决办法:

  1. 卸载 pip uninstall docx
  2. 安装 pip install python-docx

您可能感兴趣的与本文相关的镜像

Python3.8

Python3.8

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

### 如何使用Python处理Word文档 #### 1. 安装必要的库 为了处理Word文档,可以使用`python-docx`和`docx2txt`这两个常用的库。这些库提供了丰富的功能来创建、修改以及提取Word文档的内容。 - `python-docx`: 提供了对`.docx`文件的全面支持,允许用户创建新的Word文档并对其进行复杂的编辑操作[^1]。 - `docx2txt`: 是一个轻量级工具,专注于将`.docx`文件转换为纯文本格式以便进一步分析[^3]。 安装方法如下: ```bash pip install python-docx docx2txt ``` --- #### 2. 创建一个新的Word文档 以下是利用`python-docx`创建简单Word文档的一个例子: ```python from docx import Document def create_word_document(): document = Document() # 添加标题 document.add_heading('这是一个标题', level=1) # 添加段落 paragraph = document.add_paragraph('这是第一个段落.') # 保存文档 document.save('example.docx') create_word_document() ``` 上述代码展示了如何初始化一个空白文档,向其中添加标题和段落,并最终将其保存为名为`example.docx`的文件。 --- #### 3. 提取Word文档内容 如果目标是从现有的Word文档中提取文字,则可以通过以下两种方式进行: ##### (a) 使用`python-docx` 这种方法适用于需要逐段解析文档的情况: ```python from docx import Document def extract_text_with_python_docx(file_path): document = Document(file_path) full_text = [] for para in document.paragraphs: full_text.append(para.text) return '\n'.join(full_text) text_content = extract_text_with_python_docx('example.docx') print(text_content) ``` 此脚本遍历指定路径下的Word文档的所有段落对象(`paragraph`)并将它们拼接成完整的字符串输出[^5]。 ##### (b) 使用`docx2txt` 对于只需要获取整个文档作为单一连续文本串的需求来说,`docx2txt`更为简洁高效: ```python import docx2txt def extract_text_with_docx2txt(file_path): text = docx2txt.process(file_path) return text content = extract_text_with_docx2txt('example.docx') print(content) ``` 这段程序调用了`process()`函数直接返回文档内的全部文本。 --- #### 4. 修改现有Word文档 除了新建或读取外,还可以借助`python-docx`实现对已有Word文档的部分更新或者结构调整等功能。比如下面的例子演示了怎样往已有的文档里追加新段落后再另存一份副本出来: ```python from docx import Document def append_to_existing_document(input_file, output_file): document = Document(input_file) new_para = '这是一条新增的信息.' document.add_paragraph(new_para) document.save(output_file) append_to_existing_document('original.docx', 'modified_copy.docx') ``` 这里定义了一个接受输入源文件名与输出目标名称参数的小型辅助函数,在原基础上附加了一句话之后重新存储到了另一个位置上. --- #### 5. 将Word文档拆分成多份子文档 有时可能希望按照特定标准把单一大型报告分割开来形成若干独立章节形式的小册子之类的东西;对此也有专门的技术手段可供采用——即所谓的“按节/章划分法”。具体做法参见另一篇关于该主题的文章描述[^2]。 --- ### 总结 综上所述,通过学习以上几种典型应用场景及其对应解决办法,相信读者已经掌握了运用Python语言有效操控Microsoft Office系列软件产品之一—MS Word的方法论基础!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

eon2718281828

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值