python读取pdf文字
将PDF每一页的内容读取:extract_text()
import PyPDF2
# PyPDF2不能读取PDF中图片上的文字
# reader1 = PyPDF2.PdfReader('./PDF素材/001-Python认知.pdf')
reader1 = PyPDF2.PdfReader('./PDF素材/001-Python环境安装.pdf')
# 一页一页的读
for i in range(reader1.getNumPages()):
# 根据下标指定页面
page = reader1.pages[i]
# 将PDF每一页的内容读取:extract_text()
content = page.extract_text