
爬虫
文章平均质量分 73
cuigelasi
穷且益坚不坠青云之志
展开
-
python爬虫基础-http协议
python爬虫基础-http协议1.1Headers是请求头 Request Headers是发送过去的请求,里面包含了完整的http请求数据,在之后我们爬取网站页面时会用到。 GET是获取方式; Host是远程主机地址; Connection客户端希望的联机方式; Accept是客户端能接受的媒体类型; User-Agent标示浏览器的身份,爬虫爬取时不可或缺的部分; Accept原创 2016-12-11 10:43:35 · 687 阅读 · 0 评论 -
python爬虫基础-Cookies
Cookies 1.对我们的爬虫来说cookies是非常重要的一块,首先找到cookies在哪。一般来说我们的第一个请求头里已经包含了cookies,cookies里的内容是用来标识你是合法的用户。也就是说在cookies失效之前,你的可以复制这个cookies用来欺骗网站。2.cookies用途 2.1可以用来判断用户是否登录 2.2保存用户购买的商品列表对cookies的深入研究大家可以参原创 2016-12-11 11:27:04 · 627 阅读 · 0 评论 -
scrapy的安装
一、windows下安装。 1.安装python,注意python的版本,以下安装的类库都是要和你的python版本一致。建议是python2.7 2.安装pip,下载 get-pip.py到本地并安装。 验证是否安装成功:[root@ cgls]# pip --version 3.安装pywin32,下载相应版本的pywin32到本地并安装。 4.安装pyOPENSSL,下载相应版本的p原创 2016-12-27 15:07:27 · 796 阅读 · 0 评论 -
scrapy爬取图片
一、安装scrapy 请按照安装教程安装scrapy。二、编写爬虫 2.1 创建项目[root@ cgls]# scrapy startproject beautiful_album_spider2.2 创建spider[root@ cgls]# scrapy genspider xiaohuar_spider xiaohuar.com2.3 写spider文件[root@ cgls]# vi原创 2017-01-19 14:12:09 · 1152 阅读 · 0 评论 -
Scrapy入门--Scrapy是什么
一、Scrapy==蜘蛛Scrapy是我们熟知的蜘蛛爬虫框架,我们用蜘蛛来获取互联网上的各种信息,然后再对这些信息进行数据分析处理。所以说,Scrapy是学习大数据的入门技能。Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。蜘蛛作为网络爬虫,在网上到处或定向抓取网站网页的HTML数据。抓取网页的一般方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取原创 2017-01-19 16:29:33 · 3601 阅读 · 0 评论