【ERNIE + PaddleOCR】创建自己的论文字典，更好的写论文吧！

最新推荐文章于 2025-10-22 00:07:52 发布

原创

最新推荐文章于 2025-10-22 00:07:52 发布 · 1.1k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #paddlepaddle #python

一、项目背景

在撰写论文的过程中，许多作者习惯先以中文完成初稿，随后再将其翻译为英文。然而，这种翻译过程往往伴随着一系列挑战。尤其是在词汇选择和语法结构上，很容易使用到一些在学术论文中不常用或不符合规范的表达。为了克服这一难题，我结合PaddleOCR和ERNIE技术来构建一个模板论文的字典来解决这个问题。

二、项目方案

首先，利用PaddleOCR技术，我能够从大量的学术论文中提取出关键的词汇和短语，这些词汇和短语往往代表着学术领域内的专业表达。随后，通过ERNIE的API，将这个字典告诉大模型，来提高翻译的准确性和规范性。

在拥有了这样一个字典后，我能够确保在翻译过程中使用到的是那些符合学术规范的词汇，而单词形态与语法结构有关，所以也规范了语法结构。这不仅大大提高了翻译的准确性，还有效降低了因词汇和语法问题而导致的论文质量下降的风险。

总的来说，通过结合PaddleOCR和ERNIE技术来构建论文翻译字典，我成功地解决了翻译过程中的词汇和语法问题，为我的论文写作提供了有力的支持。这种方法不仅提高了我的翻译效率，还使我的论文更加符合学术规范，为我在学术领域内的进一步研究奠定了坚实的基础。

三、数据说明

准备好自己的参考论文的pdf文件即可。

四、代码实现

4.1 环境安装

安装所需环境，需要安装PaddleOCR，最好从源代码进行安装，目前该项目更新较快，使用新版本更不容易出现错误。源代码安装首先根据requirements.txt安装所需环境以及一些必要的包（使用中报错提示需要安装一些额外的包）

%cd ~

# 首先建议你先从github上下载PaddleOCR的源码，https://github.com/PaddlePaddle/PaddleOCR.git，我这里会先上传一份。
# 先不要使用左侧套件里的PaddleOCR，它的版本使用起来有各种小问题。
# 我这里先下载好了源代码并上传解压。
!unzip PaddleOCR-main.zip

# 安装源码所依赖环境
%cd ~/PaddleOCR-main
!pip install --user -r requirements.txt
!pip install --user paddleclas PyMuPDF==1.19.0

# 这里是因为它下载很慢，所以我就本地下载下来上传安装的，在线安装包有可能因为网络问题失败，多试几次或者下载下来离线安装
# !pip install /home/aistudio/work/opencv_python_headless-4.9.0.80-cp37-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl

# 运行setup安装
# ******  注意，如果遇见安装超时或者其他原因导致安装环境失败，多半是网络问题，请多尝试几次。 ******
!python setup.py build install