
62爬虫(一)requests
48N6E
这个作者很懒,什么都没留下…
展开
-
2020/03/29 03-urllib3和requests库使用
知道了,get,post,json请求返回来是什么样子,现在能用的方法就是get和post两种,对什么发起请求,返回的类型不知道,别人发的是http请求,但是返回来是application/json,是用json返回的。https有些地方会出现问题,但是目前来看已经不是问题了以前12306就是自建的CA,提示会不安全**其实计算机系统有一些内置的证书颁发者,所以有些网站的CA才是可信的,...原创 2020-03-30 17:02:11 · 752 阅读 · 0 评论 -
2020/03/29 02-urllib库使用
urllib能用的无非就是请求,请求方法,urlopenurlopen打开一个网站,看到返回的response,实际上是httpresponse,本质是个类文件对象,fileno,支持上下文仔细看看这个类不管怎么访问,http是基于tcp协议的,底层一定会有socket通信,不然不能连接到url对应的网站建立通信,类文件对象是看到它了,带个b是二进制的,read出来的都是二进制的,...原创 2020-03-29 21:55:23 · 342 阅读 · 0 评论 -
2020/03/28 01-爬虫概述、Robots协议
爬虫就是做数据采集的,互联网的网站内容多了,就需要采集,就有了爬虫。一般叫网络蜘蛛,网络机器人,spider。百度这样的搜索引擎就是网络爬虫的应用者,最早的实践者。早期的雅虎是做信息收集,不是采集(将大家的网站分类,类似国内的hao123,给网站归类),但是大家对感兴趣的内容才是最直接的。把网站内容提取出来,用一个综合网站就能找到各个网站关键字内容,这就是现在的搜索引擎。所以雅虎就从归类的网站变...原创 2020-03-29 01:06:56 · 696 阅读 · 0 评论