
论文爬取系统
本专栏主要介绍论文爬取系统的构建流程。
CoreJT
中科院自动化所在读直博生,感兴趣的研究方向:文本分类、情感分析、机器阅读理解与问答系统以及对话系统。
展开
-
论文爬取系统 | (4) 项目文件组织方式
项目Github地址NLP论文爬取系统的项目目录:1)BasicSpider.py中定义了爬虫基类2)AAAI.py定义了AAAI爬虫子类3)IJCAI.py定义了IJCAI爬虫子类4)ACLSeries.py定义了ACL系列爬虫子类5)config.py定义了爬取参数,如会议名称、年份、关键词、领域等信息。6)spider.py是程序入口_...原创 2020-01-24 18:16:25 · 598 阅读 · 1 评论 -
论文爬取系统 | (3) 爬虫子类
项目Github地址每个会议有其独特之处,在定义完基类之后,我们为每个会议单独写一个类,定义其特有的函数,这些子类都继承自基类。由于AAAI、IJCAI对应的会议都来自各自的官网,所以各自单独写一个类,而ACL系列所有的会议都来自一个网站,所以可以统一写一个类。在各个子类中定义如何在各自论文页面中提取论文pdf下载链接以及论文标题的方法。ACLSeriesclass...原创 2020-01-24 17:54:03 · 417 阅读 · 0 评论 -
论文爬取系统 | (2) 爬虫基类
项目Github地址我们将首先实现一个爬虫基类,由于各个会议的爬取都是从dblp出发,所以有很多类似的地方,我们可以把这些重复的操作/函数都封装在基类里,每个会议又有其独特之处,为每个会议单独写一个类,定义其特有的函数,这些子类都继承自基类。基类主要包含了四个函数:main()基于给定的搜索条件,包括年份、关键词、会议,进行遍历搜索: def main(se...原创 2020-01-24 17:48:06 · 631 阅读 · 0 评论 -
论文爬取系统 | (1) NLP论文爬取系统概述
项目Github地址在本专栏中,我将试着利用爬虫技术搭建一个论文爬取系统。在日常的科研生活中,不可避免地需要大量查找和阅读相关领域的文献来寻找idea,如何高效并大规模地搜集相关领域的科研文献至关重要,为了避免额外的人力、节约时间,加之博主是做自然语言处理的,所以这款NLP论文爬取系统应用而生,他可以自动地对满足要求的文献进行爬取,并保存在本地指定位置。相比于人工输入关键词检索,对检索结果逐个...原创 2020-01-24 15:54:27 · 1214 阅读 · 0 评论