python文档自动翻译

最新推荐文章于 2024-11-22 09:12:39 发布

原创

最新推荐文章于 2024-11-22 09:12:39 发布 · 6.9k 阅读

103 ·

CC 4.0 BY-SA版权

python文档自动翻译

关键方法

提取文档内容

读取TXT文档

txt文档的读取很简单，直接用python自带的open()方法就好，代码如下所示：

# 读取TXT文档
def read_txt(path):
    '''实现TXT文档的读取，一次将内容全部取出'''
    content = ''
    with open(path) as f:
        content = f.read()
    return content
# 也可以用readline()读取每一行

读取Word文档

读取Word文档也比较简单，导入第三方库python-docx，安装指令为pip install python-docx，实例代码如下：

import docx    # 安装指令：pip install python-docx

def translate(self):
    '''翻译'''

    # 获取文档对象
    doc = docx.Document(self.fullName)

    # 创建内存中的word文档对象
    new_doc = docx.Document()

    # 遍历每一段文本
    for para in doc.paragraphs:
        # 翻译
        trans = baidu_translate(para.text)           
        # 写入新文件
        new_doc.add_paragraph(para.text)
        new_doc.add_paragraph(trans)

    # 保存到本地文件
    new_doc.save(self.new_fullPath)

读取PDF文档

读取PDF文档同样需要安装第三方库，主要有PyPDF2和pdfminer，这两个库我都有去了解，算是各有特点吧。
PyPDF2使用相对简单，但只支持英文，对中文支持不太友好；相反pdfminer使用相对而言要复杂点，仅仅是相对而言，其支持多种语言，图表、图片等，功能较强大。这两种方式我在代码中均有实现，其实例代码如下：
PyPDF2

# 安装指令：pip install pypdf2
from PyPDF2.pdf import PdfFileReader

def translate(self):
    '''读取pdf内容，并翻译，写入txt文件'''
    f = open(self.fullPath,'rb')
    pdf = PdfFileReader(f)

    for i in range(0,pdf.getNumPages()):
        extractedText = pdf.getPage(i).extractText()
        content = extractedText.split('\n')  
        content = self.removeBlankFromList(content)  

        # 拼接之后的文本，如果单词间歇超过一个空格的，认为是需要换行处理的
        content_list = self.enter_symbol(content)

        for line in content_list:
            trans = baidu_translate(line)
            self.write(line + '\n')
            self.write(trans)

    f.clos

最低0.47元/天解锁文章