Python爬虫

环境准备


Python


我们使用Python2.7进行开发,注意配置好环境变量。


IDE


我们使用Pycharm进行开发,它和大名鼎鼎的Android Studio、IDEA同出一门——Jet Brains。


关于破解,很无耻的贴两个:


用户名:yueting3527
注册码:
===== LICENSE BEGIN =====
93347-12042010
00001FMHemWIs"6wozMZnat3IgXKXJ
2!nV2I6kSO48hgGLa9JNgjQ5oKz1Us
FFR8k"nGzJHzjQT6IBG!1fbQZn9!Vi
===== LICENSE END =====
1
2
3
4
5
6
7
8
用户名:yueting3527


注册码:
===== LICENSE BEGIN =====
93347-12042010
00001FMHemWIs"6wozMZnat3IgXKXJ
2!nV2I6kSO48hgGLa9JNgjQ5oKz1Us
FFR8k"nGzJHzjQT6IBG!1fbQZn9!Vi
===== LICENSE END =====
1
2
3
4
5
6
7
8
9
Requests模块


Requests模块是一个用于替代Python URLLib2的一个第三方网络请求库。


安装


Windows:pip install requests
Linux & Mac:sudo pip install requests
但由于有些比较奇怪的原因,导致这个下载过程异常艰辛,所以我们经常需要使用这样一个网站来帮助我们下载:


http://www.lfd.uci.edu/~gohlke/pythonlibs/


这里面镜像收集了几乎所有的Python第三方库,我们搜索Requests,点击下载。


下载完毕后,更改后缀名为zip。并将解压出的Requests文件夹放到Python的Lib文件夹下。


通过Requests获取网页源代码


无反爬虫机制


直接使用Requests库的get方法获取网页源代码:


import requests


html = requests.get('http://www.hujiang.com/')


print(html.text)
1
2
3
4
5
6
在终端中,我们就可以看见生成的网页源代码了。


有反爬虫机制


但是,很多网站并不会轻松的让爬虫获取到网页信息,这时候,我们就需要通过修改Http头信息的方式来获取。


例如我们使用同样的代码去爬我的博客 http://blog.youkuaiyun.com/eclipsexys 在终端中,我们可以看见这样一段话:


<html>
<head><title>403 Forbidden</title></head>
<body bgcolor="white">
<center><h1>403 Forbidden</h1></center>
<hr><center>nginx</center>
</body>
</html>
1
2
3
4
5
6
7
403,这时候,我们就需要修改下爬虫代码。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值