一、项目背景
在撰写论文的过程中,许多作者习惯先以中文完成初稿,随后再将其翻译为英文。然而,这种翻译过程往往伴随着一系列挑战。尤其是在词汇选择和语法结构上,很容易使用到一些在学术论文中不常用或不符合规范的表达。为了克服这一难题,我结合PaddleOCR和ERNIE技术来构建一个模板论文的字典来解决这个问题。
二、项目方案
首先,利用PaddleOCR技术,我能够从大量的学术论文中提取出关键的词汇和短语,这些词汇和短语往往代表着学术领域内的专业表达。随后,通过ERNIE的API,将这个字典告诉大模型,来提高翻译的准确性和规范性。
在拥有了这样一个字典后,我能够确保在翻译过程中使用到的是那些符合学术规范的词汇,而单词形态与语法结构有关,所以也规范了语法结构。这不仅大大提高了翻译的准确性,还有效降低了因词汇和语法问题而导致的论文质量下降的风险。
总的来说,通过结合PaddleOCR和ERNIE技术来构建论文翻译字典,我成功地解决了翻译过程中的词汇和语法问题,为我的论文写作提供了有力的支持。这种方法不仅提高了我的翻译效率,还使我的论文更加符合学术规范,为我在学术领域内的进一步研究奠定了坚实的基础。
三、数据说明
准备好自己的参考论文的pdf文件即可。
四、代码实现
4.1 环境安装
安装所需环境,需要安装PaddleOCR,最好从源代码进行安装,目前该项目更新较快,使用新版本更不容易出现错误。源代码安装首先根据requirements.txt安装所需环境以及一些必要的包(使用中报错提示需要安装一些额外的包)
%cd ~
# 首先建议你先从github上下载PaddleOCR的源码,https://github.com/PaddlePaddle/PaddleOCR.git,我这里会先上传一份。
# 先不要使用左侧套件里的PaddleOCR,它的版本使用起来有各种小问题。
# 我这里先下载好了源代码并上传解压。
!unzip PaddleOCR-main.zip
# 安装源码所依赖环境
%cd ~/PaddleOCR-main
!pip install --user -r requirements.txt
!pip install --user paddleclas PyMuPDF==1.19.0
# 这里是因为它下载很慢,所以我就本地下载下来上传安装的,在线安装包有可能因为网络问题失败,多试几次或者下载下来离线安装
# !pip install /home/aistudio/work/opencv_python_headless-4.9.0.80-cp37-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl
# 运行setup安装
# ****** 注意,如果遇见安装超时或者其他原因导致安装环境失败,多半是网络问题,请多尝试几次。 ******
!python setup.py build install
4.2 PaddleOCR版面分析和文本识别
有两种方法可以使用版面分析和文本识别,一种是命令行运行,一种是python代码运行。
# 我的pdf文件在work文件夹里面
%cd ~/work
# 通过命令行进行版面分析和文本识别,不需要重现文档
!paddleocr