
python
文章平均质量分 68
QEcode
这个作者很懒,什么都没留下…
展开
-
scrapy框架的安装
首先考虑使用最简单的方法安装pip install scrapy 命令安装,提示 Failed building wheel for TwistedMicrosoft Visual C++ 14.0 is required…1、直...原创 2018-07-23 13:49:33 · 522 阅读 · 0 评论 -
python爬虫学习之路(7) 爬取糗事百科
糗事百科是不需要登录的,所以也没必要用到Cookie,另外,也不需要传数据到后台,所以也不用data. 好,现在我们尝试抓取一下糗事百科的热门段子吧. 我们需要爬取每个段子的发布者,内容和点赞数 1.确定URL并抓取页面代码 首先我们确定好页面的URL是 http://www.qiushibaike.com/hot/page/1 我们先来尝试获取一下糗事百科的网页,看能不能成功获取....原创 2018-07-14 22:36:06 · 282 阅读 · 0 评论 -
python爬虫学习之路(6) cookie
Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)Cookie的引文原意是“点心”,它是在客户端访问Web服务器时,服务器在客户端硬盘上存放的信息,好像是服务器发送给客户的“点心”。服务器可以根据Cookie来跟踪客户状态,这对于需要区别客户的场合(如电子商务)特别有用。当客户端首次请求访问服务器时,服务器先在客户端存放包含该客户的...原创 2018-07-14 09:46:14 · 394 阅读 · 0 评论 -
python爬虫学习之路(5) 正则表达式
在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式!1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字...转载 2018-07-14 09:22:58 · 227 阅读 · 0 评论 -
python爬虫学习之路(4) User Agent和代理IP
一、为何要设置User Agent有一些网站不喜欢被爬虫程序访问,所以会检测连接对象,如果是爬虫程序,也就是非人点击访问,它就会不让你继续访问,所以为了要让程序可以正常运行,需要隐藏自己的爬虫程序的身份。此时,我们就可以通过设置User Agent的来达到隐藏身份的目的,User Agent的中文名为用户代理,简称UA。User Agent存放于Headers中,服务器就是通过查看Head...原创 2018-07-13 21:59:48 · 528 阅读 · 0 评论 -
python爬虫学习之路(3) urllib.error异常
urllib.error可以捕获有urllib.request产生的异常。urllib.error有两个方法,URLError和HTTPError。 URLError是OSError的一个子类,HTTPError是URLError的一个子类,服务器上HTTP的响应会返回一个状态码,根据这个HTTP状态码,我们可以知道我们的访问是否成功。例如200状态码,表示请求成功,再比如常见的404错误等。 ...原创 2018-07-13 20:32:06 · 432 阅读 · 0 评论 -
python爬虫学习之路(2) 利用urllib爬取有道翻译的结果
上一节学习了如何简单的获取一个网站的html代码,这次学习一下如何爬取一个网站返回的数据.比如:爬取有道翻译所翻译的结果. 在我们爬取有道翻译的结果前,我们需要将我们所要翻译的中文传到有道翻译的服务端,如何传送呢?这就需要用到 urlopen的data参数 .urlopen的data参数 我们可以使用data参数,向服务器发送数据。根据HTTP规范,GET用于信息获取,...原创 2018-07-13 20:01:58 · 1147 阅读 · 0 评论 -
python爬虫学习之路(1) 利用urllib爬取网站
网络爬虫的定义 网络爬虫,也叫网络蜘蛛(Web Spider),如果把互联网比喻成一个蜘蛛网,Spider就是一只在网上爬来爬去的蜘蛛。网络爬虫就是根据网页的地址来寻找网页的,也就是URL。举一个简单的例子,我们在浏览器的地址栏中输入的字符串就是URL,例如:https://www.baidu.com/URL就是同意资源定位符(Uniform Resource Locator),它的...原创 2018-07-12 22:31:43 · 588 阅读 · 0 评论 -
爬虫小程序--翻译器
嗯,这个程序实际上就是把自己写的中文封装到百度翻译的数据data中,并将data传送到百度翻译的后台,在获取百度翻译返回的数据,将其中的翻译结果输出来.import requestsimport json# 这个网址就是百度翻译将页面的数据传送到后台的网址url = "http://fanyi.baidu.com/basetrans"# 百度翻译用来发送数据的data格式da...原创 2018-07-11 23:24:02 · 497 阅读 · 0 评论 -
python爬虫学习之路(8) requests
1. 准备工作在开始之前,请确保已经正确安装好了requests库。2. 实例引入urllib库中的urlopen()方法实际上是以GET方式请求网页,而requests中相应的方法就是get()方法,是不是感觉表达更明确一些?下面通过实例来看一下: ...转载 2018-07-15 16:20:09 · 824 阅读 · 0 评论