python爬虫基础

1、爬虫就是一个自动从网络中获取数据的程序

2、爬虫用处:新闻数据(今日头条)、机器学习(股票数据获取及分析)、网络搜索引擎的一个部件(谷歌、百度有集群搜索)

3、推荐:https://learnxinyminutes.com/docs/python/

4、python标准库里对HTTP的实现及其用法、正则表达式(用来解析爬取出来的数据初步分析)、多线程(提高爬虫的执行效率,分布式爬虫)、实例:(文本数据、图片数据、AJAX数据)


一、http协议

1、应答码:

2xx:成功  200:OK   206:Partial Contents

3xx 重定向    

4xx  客户端错误

5xx  服务器错误

参考见:https://blog.youkuaiyun.com/haimiandanke/article/details/61914983

2、Server:应答服务器

3、Content-Type:应答的数据类型

4、Last-Modified:上一次修改时间

5、Content-Encoding:应答编码类型

6、Content-Length:应答的内容长度

7、URL:协议(http)、路径(www.baidu.com)、参数

百度搜索“中文”两字,图下图URL     ‘’中文‘’的utf-8编码为%E4%B8%AD%E6%96%87 

参考见:http://www.ruanyifeng.com/blog/2010/02/url_encoding.html

8、cookies:服务器在客户端存储的信息

keys=value1;key2=value2;key3=value3

用途:①登录信息:判断用户是否已经登录

②购物车:保存用户购买的商品列表


 

利用python爬取豆瓣网中正在上映的电影信息:https://blog.youkuaiyun.com/e31006/article/details/52859687

爬取豆瓣网中正在上映和即将上映的电影信息:https://blog.youkuaiyun.com/xlelou/article/details/80804981

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值