python基础学习第五课,大批量获取网页数据基础,requests模块尝试

2018-02-19  滑稽怪  趣说python

(如果有帮助可以关注我的微信公众号 趣说python 会陆续公布django和爬虫专栏哦)


其实本来这里按常规思路呢,我们要给大家讲for循环的

但是作为一个不按常理出牌的公众号,我准备先讲点有意思的东西


一 扩展

这个已经超过了我们当前的进度了啦,我为什么要提前讲这个模块呢?

现在是一个大数据的年代,网上有很多数据都是有所价值的

但是只有数据达到一定数量级,比如几十万,才会有所价值


但是别人的数据是不会免费提供给我们的,我们如何获得数据呢,

那么我们可以利用python来大规模爬取它的网页,来获得数据,这就叫爬虫


这之间的获取网页,提取数据,存储,反爬虫措施的应对,数据量的提升如何保证效率,如何大规模爬取,构造了一个特殊的岗位,爬虫工程师


以后我会推出一个专题来讲这方面,我们可以爬电影,爬淘宝,爬斗鱼弹幕,爬亚马逊,爬豆瓣,这些都会在以后讲到


这里我们来介绍一个起点吧,requests模块

-----------------------------------------



一 下载包环节

我们平常都是用浏览器访问网页的,那我们能不能通过python来访问网页呢?

有的,叫做requests模块,什么叫做模块呢?模块就是别人写好的代码

我们下载下来,使用,让我们用简单的方法实现复杂的功能咯


我们点击这个哦


进入这里哦

点击右边那个绿色的+号



查询到requests,点击左下角的install 等待安装完成即可


二 导入模块

这样既可哦 

requests是一个模块,一个很大的包裹,里面会有很多很多的方法,

使用模块里面的方法

requests.method_name()


这样就可以看到我们获得的页面了啦


但是如果你执行下面的语句


就会拿到这种数据啦,这是因为知乎屏蔽掉了我们的爬虫哦

这个我们后期爬虫教程会讲啦,让我们回归基础吧,只有基础达到了,才能做有意思的事情


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值