
爬虫
在云端123
这个作者很懒,什么都没留下…
展开
-
爬虫入门教程 | 使用Python实现简单爬虫
介绍一段自动抓取互联网信息的程序称为爬虫,主要组成:爬虫调度器、URL管理器、网页下载器、网页解析器(1)爬虫调度器:程序的入口,主要负责爬虫程序的控制 (2)URL管理器: 1、添加新的URL到代爬取集合2、判断待添加URL是否已存在3、判断是否还有待爬取的URL,将URL从待爬取集合移动到已爬取集合 URL存储方式:Python内存即set()集合,关系数据库、缓存数据库 (3...原创 2017-05-31 19:35:53 · 2948 阅读 · 0 评论 -
爬虫入门教程 | 使用selenium爬取微博热门数据
抓取实时热搜榜、热点热搜榜、潮流热搜榜、名人热搜榜 ,并固定格式存到CSV文件。代码如下:# coding=utf-8import reimport requestsimport xlwtfrom bs4 import BeautifulSoupfrom selenium import webdriverdriver = webdriver.Chrome("C:\Prog...原创 2017-06-18 07:30:46 · 1678 阅读 · 0 评论 -
selenium使用cookie实现免登录
有时候我们爬虫的网站需要验证码登录,一般这时我们不可能再使用账号密码登录这种方法了,而是把登录后cookie保存起来,比如保存在txt文件,然后再把cookie取出来直接登录第一步用账号密码模拟登录。拿到cookie,保存在txt文件,这个要注意,我们获取的cookie是字典格式,我们需要使用cookies = json.dumps(cookies)转换为字符串格式再保存入txt文件,...原创 2018-02-27 20:51:16 · 26726 阅读 · 4 评论 -
写爬虫遇到坑和总结
最近一直在使用scrapy编写各种爬虫,遇到一些坑,下面来总结一下,以免下次遇到又花费很多时间(1)我们在请求前拼接headers时,并不需要把所有request headers都拼接上,可以使用在线http请求,如http://coolaf.com/去测试比如下面refer只要截取前面就可以,后面参数可能是动态生成的,对每次请求都一一对应的,只能适用一次请求,所以一次要爬取很多页面就...原创 2018-04-17 12:07:15 · 1354 阅读 · 0 评论