
日常爬取代码
文章平均质量分 73
顾清风.
一杯茶,一根烟,一行代码写一天。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python使用newspaper快速抓取新闻文章
最近突然想到newspaper,是一个算是专门用来抓取新闻正文,标题,图片等的一个包。这个包是需要自己重新安装的。在settings配置环境,添加包newspaper。如果添加不进去就使用pip命令添加打开命令行窗口,输入pip3 install --ignore-installed --upgrade newspaper3k如果文章没有指明使用的什么语言的时候,Newspaper...原创 2018-12-27 14:07:52 · 5468 阅读 · 0 评论 -
python的selenium使用方法,爬取QQ空间
selenium 是一个web的自动化测试工具,不少学习功能自动化的朋友开始首选selenium ,相因为它相比QTP有诸多有点:免费,也不用再为破解QTP而大伤脑筋小巧,对于不同的语言它只是一个包而已,而QTP需要下载安装1个多G 的程序。这也是最重要的一点,不管你以前更熟悉C、 java、ruby、python、或都是C# ,你都可以通过selenium完成自动化测试,而QT...原创 2018-12-27 14:43:21 · 1470 阅读 · 0 评论 -
Python的scrapy爬虫框架—Rule
解释:Rule是在定义抽取链接的规则,上面的两条规则分别对应列表页的各个分页页面和详情页,关键点在于通过restrict_xpath来限定只从页面特定的部分来抽取接下来将要爬取的链接。follow=False(不跟进), 只提取首页符合规则的url,然后爬取这些url页面数据,callback解析follow=True(跟进链接), 在次级url页面中继续寻找符合规则的url,如此循环,直...原创 2019-01-12 09:19:57 · 1650 阅读 · 0 评论