python爬虫相关库的安装
1、python安装(3.6版本以上)
下载地址:http://www.python.org
2、安装pycharm(社区版和专业版),社区版是免费的,专业的免费试用1个月
创建项目的方法
3、chrome的安装(可以用360浏览器代替),安装chrome浏览器的驱动(对应相应的版本)
Chrome抓包工具的使用
网页右键检查就可以打开开发者选项
elements:可以帮助分析网页结构,获取数据。网页源代码(从这些代码中提取信息)
console:展示网页打印的信息和错误信息,相当于控制台。
sources:展示网页所有的资源(展示的是个原始的网页),网页加载的所有摁键
network:xhr(ajax请求获取到信息),网络发送的所有请求。
爬虫的简单介绍
爬虫的实际应用:搜索引擎、伯乐在线、惠惠购物助手(chrome浏览器插件)、数据分析、抢票软件等
网络爬虫:模拟人类请求网站的行为
http协议介绍
python写爬虫支持的模块大、支持模块多,相关的http请求和html解释非常丰富。
http协议:HyperText Transfer Protocol超文本传输文件,80端口(https,在http协议次啊添加SSL层,端口443)
url详解Uniform Resource Locator
sheme://host:port/path?query-string=xxxx#anchor
协议://域名:端口/路径?查询字段=xxx#锚点(前端页面进行定位)
浏览器会对url进行编码,因为url只能识别acii,除了英文,其他都会进行编码。
http常见的请求method:
get:一般只从服务器获取数据,并不会服务器资源进行修改
post:登录,上传文件等,会对服务器资源有影响。爬虫是需要查看具体的请求方法
请求头参数:放在url,放在body,放在headers
user-agent:
referer参数
cookie:用来表示身份
常见的相应状态码:
200:正常
301:永久重定向,域名以后不用
302:临时重定向,没有登录时会跳转到登录界面,就会返回302
404:url错误
403:无权限
500:服务器内部错误