实操练习—批量处理：PDF文件转为word文件

躺在沙漠中的鱼

于 2024-01-23 13:40:21 发布

阅读量731

点赞数 10

文章标签： pdf

本文链接：https://blog.youkuaiyun.com/qq_69209924/article/details/135769231

版权

用途：批量提取pdf中的文本信息

主要使用库：pdfplumber、os、docx

第一步：定义函数：输入PDF文件的文件路径，即可获取文本

# 导入PDF所在的文件路径，返回文本信息
import pdfplumber
 
def pdf2txt(pdf_path):
    txt = ''
    with pdfplumber.open(pdf_path) as pdf:
        for page in pdf.pages:
            txt = txt + page.extract_text()
    return txt

第二步：定义函数：获取文件夹中的文件路径，并保存在列表，需输入的是PDF所在文件夹

#获取文件夹中的文件位置
import os

def get_file_paths(folder):
    file_paths = []
    for root, dirs, files in os.walk(folder):
        for file in files:
            file_path = os.path.join(root, file)
            file_paths.append(file_path)
    return file_paths

第三步：填写保存PDF文件的文件夹路径，获取PDF文件路径

# 填写要提取文件路径的文件夹路径
folder_path = r"文件路径"
file_paths = get_file_paths(folder_path)
print(f

最低0.47元/天解锁文章

躺在沙漠中的鱼

博客等级

码龄3年

6
原创

34
点赞

27
收藏

22
粉丝

关注

私信

最新评论

playwright学习记录
优快云-Ada助手: 恭喜你写了第6篇博客！看到你在学习playwright上取得的进步，真是令人欣慰。接下来，我建议你可以尝试写一些关于playwright实践经验的分享，或者是结合实际案例进行分析，这样可以更好地巩固自己的学习成果，也能够为读者提供更有参考价值的内容。希望你能继续保持创作的热情，不断进步！加油！
selenium模拟登录B站
优快云-Ada助手: 恭喜你成功地使用selenium模拟登录B站！这是一项非常有挑战性的技能，能够为你的技术水平增添不少光彩。接下来，我建议你可以尝试使用selenium进行更多的自动化操作，比如发布动态、评论视频等，这样可以更深入地了解selenium的应用。当然，我也期待你接下来的博客，分享更多关于技术的见解和经验。加油！
实操练习—批量处理：PDF文件转为word文件
优快云-Ada助手: 非常棒的博文！希望能看到更多类似的实操练习，这对读者来说真的非常有帮助。另外，在处理PDF文件的过程中，你可能会遇到一些涉及到文本编码和字体格式的问题，可以考虑学习一些相关的知识，比如Unicode编码、字体嵌入等，这些技能对于更高效地处理文件会很有帮助。希望你能继续分享你的学习心得，也期待看到你在这方面的更多成果！如何写出更高质量的博客，请看该博主的分享：https://blog.youkuaiyun.com/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
实操记录-词云图制作
优快云-Ada助手: 恭喜你写了第三篇博客！标题“实操记录-词云图制作”听起来很有趣。通过分享你的实操经验，你帮助了读者了解如何制作词云图。我非常喜欢你的创作思路，尤其是结合实际操作来讲解。接下来，我期待看到你更多关于数据可视化的内容，比如其他有趣的图表制作技巧或者数据分析案例。谦虚地说，我相信你的创作将继续激发读者的兴趣，帮助更多人提升数据处理和可视化能力。加油！优快云正在通过评论红包奖励优秀博客，请看红包流：https://bbs.youkuaiyun.com/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
学习日记（总结1-数据类型中字符串的功能）个人总结
优快云-Ada助手: 恭喜你写下了第一篇博客！标题很有吸引力，我对你总结了数据类型中字符串的功能感到非常感兴趣。从你的标题中可以看出，你在学习过程中对于数据类型的理解已经很深入了。接下来，我建议你在博客的内容中详细解释字符串的各种功能，并结合实际示例进行说明。这样可以帮助读者更好地理解字符串的用法和应用场景。另外，你还可以考虑在博客中分享一些自己的学习经验和技巧，这会让你的博客更加丰富和有趣。继续努力，期待你的下一篇博客！谦虚地说，我相信你的创作会越来越好。推荐【每天值得看】：https://bbs.youkuaiyun.com/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！