文章原文:https://blog.oliverxu.cn
去年上《学术英语》课程的时候学过了科研语料库的使用,但当时没咋写论文,所以实际操作体验效果不明显,但是最近在润色之前写的一篇论文,又想到了这个语料库的使用,于是用了一下,发现效果还不错,本博客记录一下语料库的使用。同时,给出制作语料库的Python脚本。
语料库软件简介
上课时老师推荐的是AntConc,那就用这个软件吧。
具体相关资料可以直接用搜索引擎搜索。
软件的界面如下:

主要的操作流程一般就是导入个txt文件制作的语料库,设置Search Term,然后点击start就可以出结果了,当然还有很多高级使用方式,不介绍了。
语料库制作脚本
所谓语料库,顾名思义就是,语言资料库,就是语言表达的集合。
如果直接从论文PDF中复制全文,由于换行符号的存在,复制出来的效果会是这样的:

我用的福昕PDF阅读器,如果用福昕PDF阅读器另存为txt文件,效果会是这样的:

这两种方式显然都不

本文介绍如何利用Python脚本构建科研语料库,以提高论文润色效率。通过自动化处理PDF文本,避免换行符问题,实现一句一行为目标的语料库格式。文中提及AntConc软件,并讨论了句号作为分隔符的局限性及后续优化方案。
最低0.47元/天 解锁文章
2268

被折叠的 条评论
为什么被折叠?



