
爬虫
文章平均质量分 53
mywang88
这个作者很懒,什么都没留下…
展开
-
DBLP 搜索爬虫项目
mywang882018-12-14简介由于项目需要,计划抓取 dblp 网站关键词搜索结果的文章列表。目标站点:dblp: computer science bibliography 以及文章所属期刊网站维基词条:DBLP - Wkikpedia1 流程设计从需求方获取“关键词列表”。在 DBLP 主页,使用关键词列表中的每个关键词,发起搜索。获取搜索结果页面中,每个条目(文...原创 2018-12-14 21:49:40 · 2273 阅读 · 2 评论 -
单独使用 Scrapy 框架的 Selector 选择器
mywang882018-12-16背景Scrapy 框架是一个经典的 Python 爬虫框架。Scrapy 框架中的 Selector 类提供了多种 html/xml 节点选择器的方法,例如:css 选择器、xpath 选择器、re 选择器等。使用 scrapy.Selector 类的好处之一,就是不需要再导入(import)其它工具包,例如 lxml 等,直接调用选择器,并输入对应语...原创 2018-12-16 11:47:10 · 607 阅读 · 0 评论 -
提取 xml 文件中的 CDATA 数据
mywang882018-12-26简介XML 是常见的数据格式。解析器往往会忽略 XML 文件中 <![CDATA[ 信息 ]]> 区段的内容,但有时我们是需要抓取这些内容的。搜索了下这个问题,没找到较好的回答,自己解决。本文的开发场景为:编程语言:Python 3.7.0使用了 Scrapy 爬虫框架的 Selector 类和它的 xpath 选择器(方法)使用...原创 2018-12-26 12:57:39 · 7905 阅读 · 0 评论 -
简化理解 Scrapy 爬虫框架
mywang882019-08-14简介一年前开始接触 Python 和网络爬虫技术。彼时由于基础较为薄弱,在使用 Scrapy 框架时产生了不少疑惑。于是果断放弃,改用 Requests 扩展库,打算在网络爬虫开发的实践中,逐步明白框架的设计意义。期间补充了不少的 Python 语法知识,以及程序设计思想。虽然缓慢,但也算有进步,于是决定水一贴。基于对 Scrapy 框架的初步理解...原创 2019-08-14 09:12:08 · 403 阅读 · 0 评论