【ERNIE + PaddleOCR】 创建自己的论文字典,更好的写论文吧!

一、项目背景

        在撰写论文的过程中,许多作者习惯先以中文完成初稿,随后再将其翻译为英文。然而,这种翻译过程往往伴随着一系列挑战。尤其是在词汇选择和语法结构上,很容易使用到一些在学术论文中不常用或不符合规范的表达。为了克服这一难题,我结合PaddleOCR和ERNIE技术来构建一个模板论文的字典来解决这个问题。

二、项目方案

        首先,利用PaddleOCR技术,我能够从大量的学术论文中提取出关键的词汇和短语,这些词汇和短语往往代表着学术领域内的专业表达。随后,通过ERNIE的API,将这个字典告诉大模型,来提高翻译的准确性和规范性。

        在拥有了这样一个字典后,我能够确保在翻译过程中使用到的是那些符合学术规范的词汇,而单词形态与语法结构有关,所以也规范了语法结构。这不仅大大提高了翻译的准确性,还有效降低了因词汇和语法问题而导致的论文质量下降的风险。

        总的来说,通过结合PaddleOCR和ERNIE技术来构建论文翻译字典,我成功地解决了翻译过程中的词汇和语法问题,为我的论文写作提供了有力的支持。这种方法不仅提高了我的翻译效率,还使我的论文更加符合学术规范,为我在学术领域内的进一步研究奠定了坚实的基础。

三、数据说明

        准备好自己的参考论文的pdf文件即可。

四、代码实现

4.1 环境安装

        安装所需环境,需要安装PaddleOCR,最好从源代码进行安装,目前该项目更新较快,使用新版本更不容易出现错误。源代码安装首先根据requirements.txt安装所需环境以及一些必要的包(使用中报错提示需要安装一些额外的包)

%cd ~

# 首先建议你先从github上下载PaddleOCR的源码,https://github.com/PaddlePaddle/PaddleOCR.git,我这里会先上传一份。
# 先不要使用左侧套件里的PaddleOCR,它的版本使用起来有各种小问题。
# 我这里先下载好了源代码并上传解压。
!unzip PaddleOCR-main.zip

# 安装源码所依赖环境
%cd ~/PaddleOCR-main
!pip install --user -r requirements.txt
!pip install --user paddleclas PyMuPDF==1.19.0

# 这里是因为它下载很慢,所以我就本地下载下来上传安装的,在线安装包有可能因为网络问题失败,多试几次或者下载下来离线安装
# !pip install /home/aistudio/work/opencv_python_headless-4.9.0.80-cp37-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl

# 运行setup安装
# ******  注意,如果遇见安装超时或者其他原因导致安装环境失败,多半是网络问题,请多尝试几次。 ******
!python setup.py build install

4.2 PaddleOCR版面分析和文本识别

        有两种方法可以使用版面分析和文本识别,一种是命令行运行,一种是python代码运行。

# 我的pdf文件在work文件夹里面
%cd ~/work

# 通过命令行进行版面分析和文本识别,不需要重现文档
!paddleocr
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

军哥说AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值