1、爬虫就是一个自动从网络中获取数据的程序
2、爬虫用处:新闻数据(今日头条)、机器学习(股票数据获取及分析)、网络搜索引擎的一个部件(谷歌、百度有集群搜索)
3、推荐:https://learnxinyminutes.com/docs/python/
4、python标准库里对HTTP的实现及其用法、正则表达式(用来解析爬取出来的数据初步分析)、多线程(提高爬虫的执行效率,分布式爬虫)、实例:(文本数据、图片数据、AJAX数据)
一、http协议
1、应答码:
2xx:成功 200:OK 206:Partial Contents
3xx 重定向
4xx 客户端错误
5xx 服务器错误
参考见:https://blog.youkuaiyun.com/haimiandanke/article/details/61914983
2、Server:应答服务器
3、Content-Type:应答的数据类型
4、Last-Modified:上一次修改时间
5、Content-Encoding:应答编码类型
6、Content-Length:应答的内容长度
7、URL:协议(http)、路径(www.baidu.com)、参数
百度搜索“中文”两字,图下图URL ‘’中文‘’的utf-8编码为%E4%B8%AD%E6%96%87
参考见:http://www.ruanyifeng.com/blog/2010/02/url_encoding.html
8、cookies:服务器在客户端存储的信息
keys=value1;key2=value2;key3=value3
用途:①登录信息:判断用户是否已经登录
②购物车:保存用户购买的商品列表
利用python爬取豆瓣网中正在上映的电影信息:https://blog.youkuaiyun.com/e31006/article/details/52859687
爬取豆瓣网中正在上映和即将上映的电影信息:https://blog.youkuaiyun.com/xlelou/article/details/80804981