PyPDF项目实战：如何有效减小PDF文件大小-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00501/article/details/148419212

PyPDF项目实战：如何有效减小PDF文件大小

pypdf A pure-python PDF library capable of splitting, merging, cropping, and transforming the pages of PDF files 项目地址: https://gitcode.com/gh_mirrors/py/pypdf

前言

在日常工作中，我们经常会遇到需要处理PDF文件的情况，其中文件体积过大是一个常见问题。PyPDF作为Python生态中强大的PDF处理库，提供了多种方法来优化PDF文件大小。本文将深入探讨几种实用的PDF压缩技术，帮助您根据实际需求选择最合适的方案。

为什么PDF文件会过大？

在探讨解决方案之前，我们需要了解导致PDF文件过大的常见原因：

重复嵌入相同资源（如图片、字体）
高分辨率图片未经过优化
包含大量未使用的对象和资源
内容流未压缩
保留了大量隐藏或删除的页面内容

理解这些原因有助于我们针对性地选择压缩策略。

方法一：移除重复对象

原理分析

许多PDF文档会重复包含相同的对象。例如，一个出现在文档中多次的图片可能被多次嵌入，而不是只嵌入一次并被多次引用。PyPDF提供了智能的重复对象压缩功能。

实现代码

from pypdf import PdfWriter

writer = PdfWriter(clone_from="large_file.pdf")

# 关键压缩操作
writer.compress_identical_objects(
    remove_identicals=True,  # 合并相同对象
    remove_orphans=True     # 移除未使用对象
)

with open("compressed.pdf", "wb") as f:
    writer.write(f)

参数说明

remove_identicals：控制是否合并完全相同的对象
remove_orphans：控制是否删除未被引用的孤立对象

性能表现

在实际测试中，这种方法曾实现过从5.7MB到0.8MB的惊人压缩效果，减少了86%的文件大小。但效果因PDF结构而异，建议在处理前备份原始文件。

方法二：图片处理策略

2.1 完全移除图片

from pypdf import PdfWriter

writer = PdfWriter(clone_from="with_images.pdf")
writer.remove_images()  # 一键移除所有图片

with open("no_images.pdf", "wb") as f:
    writer.write(f)

这种方法最为直接，但会丢失所有图像信息，适合仅需保留文本内容的场景。

2.2 降低图片质量

from pypdf import PdfWriter

writer = PdfWriter(clone_from="high_quality.pdf")

for page in writer.pages:
    for img in page.images:
        img.replace(img.image, quality=80)  # 质量设为80%

with open("reduced_quality.pdf", "wb") as f:
    writer.write(f)

注意事项：

质量参数范围通常为0-100
效果取决于原始图片的压缩方式
建议尝试不同质量值找到最佳平衡点

方法三：无损内容流压缩

from pypdf import PdfWriter

writer = PdfWriter(clone_from="uncompressed.pdf")

for page in writer.pages:
    page.compress_content_streams(level=9)  # 最高压缩级别

with open("compressed_streams.pdf", "wb") as f:
    writer.write(f)

技术细节：

使用zlib/deflate算法（FlateDecode过滤器）
压缩级别1-9，9为最高压缩
完全无损，不影响视觉质量
但CPU计算开销较大

实测案例中，这种方法实现了从11.8MB到3.5MB的压缩效果，减少了70%体积。

方法四：页面内容彻底删除

常见误区

很多用户简单地删除页面列表中的页面，但这并不会真正移除页面内容数据。这些数据仍保留在PDF中，只是不再显示。

正确做法

创建新的PdfWriter实例
只添加需要保留的页面
避免使用append方法包含所有页面

from pypdf import PdfWriter, PdfReader

reader = PdfReader("large_doc.pdf")
writer = PdfWriter()

# 只添加需要的页面（如第1,3,5页）
for page_num in [0, 2, 4]:  # 注意是0-based索引
    writer.add_page(reader.pages[page_num])

with open("selected_pages.pdf", "wb") as f:
    writer.write(f)