
爬虫
ScratKong
劝君惜取少年时
展开
-
爬虫(三)requests模块
1 为什么要重点学习requests模块,而不是urllibrequests的底层实现就是urllib requests在python2 和python3中通用,方法完全一样 requests简单易用 Requests能够自动帮助我们解压(gzip压缩的等)响应内容 2 requests的作用作用:发送网络请求,返回响应数据中文文档 : http://docs.python...转载 2018-08-26 14:12:25 · 505 阅读 · 0 评论 -
五分钟告诉你什么是爬虫?
1 什么是爬虫 把互联网比喻成一张网,那么爬虫就是网上爬行的蜘蛛,把网的节点比喻成一个个网页,爬虫爬取到就相当于访问了该页面,获取了其信息,爬虫可以通过一个节点之后,顺着节点连线(链接) 继续爬行到下一个节点,即通过一个网页继续获取后续的网页,这样整个网的节点就可以被爬虫全部爬到。 实际实现可理解为:网络爬虫(又称网页蜘蛛,网络机器人)模拟浏览器发送网络请求,接...转载 2018-08-12 19:52:16 · 19226 阅读 · 0 评论 -
爬虫(一)爬虫入门
如果不知道啥是爬虫 ,传送门--------->五分钟告诉你什么是爬虫一、为什么学习爬虫 大数据时代,根据数据分析用户购买意向,从而进行商业相关调整。浏览器中用户能拿到的,原则上爬虫都可以爬到。关于反爬:资源同等情况下,爬虫胜利。爬虫与黑客的区别:爬虫:灰色地带,带账号权限操作,只是一种便利的获取数据。 黑客:违法,免爬取,付费。二、爬虫的分类:...转载 2018-08-25 23:30:09 · 1253 阅读 · 1 评论 -
爬虫(二)代理
一、为什么要使用代理 反反爬,为什么要反爬?----------很多公司做高并发、分布式都是为了提升用户体验,你搞个爬虫高频访问给人搞崩或者让真正的用户体验极差都是别人不愿意看到的,所以很多网站都会对单个用户的访问频次有所限制。代理主要有以下两个目的: 让服务器以为不是同一个客户端在请求 防止我们的真实地址被泄露,防止被追究(嗯,还是不要太高调,闷声爬就好了)...转载 2018-08-25 23:26:42 · 650 阅读 · 0 评论 -
爬虫(七)BeautifulSoup4的学习
由于xpath解析数据需要对html结构有深刻的理解, 那么是不是还有其他的解析方法呢? 接下来介绍使用css选择器解析数据的操作库-------- BeautifulSoup4。1 CSS 选择器:BeautifulSoup4的介绍和安装 和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提...转载 2018-08-26 14:46:06 · 344 阅读 · 0 评论 -
爬虫(六)数据提取----正则、xpath、lxml
1 爬虫中数据的分类在爬虫爬取的数据中有很多不同类型的数据, 需要了解数据的不同类型来又规律的提取和解析数据.结构化数据:json,xml等 处理方式:直接转化为python类型 非结构化数据:HTML 处理方式:正则表达式、xpath 下面以今日头条的首页为例,介绍结构化数据和非结构化数据结构化数据例子:非结构化数据:XML数据:<bookstor...转载 2018-08-26 14:35:40 · 1610 阅读 · 0 评论 -
爬虫(五)urllib
1 urllib介绍除了requests模块可以发送请求之外, urllib模块也可以实现请求的发送,只是操作方法略有不同!urllib在python中分为urllib和urllib2,在python3中为urllib。下面以python3的urllib为例进行讲解。2 urllib的基本方法介绍2.1 urllib.urlopoen 传入URL地址 res...转载 2018-08-26 14:17:02 · 329 阅读 · 0 评论 -
爬虫(四)requests模块
request模块处理cookie相关的请求1 爬虫中使用cookie 为了能够通过爬虫获取到登录后的页面,或者是解决通过cookie的反扒,需要使用request来处理cookie相关的请求1.1 爬虫中使用cookie的利弊 带上cookie的好处 能够访问登录后的页面 能够实现部分反反爬 带上cookie的坏处 一套cook...转载 2018-08-26 14:15:26 · 707 阅读 · 0 评论