环境准备
Python
我们使用Python2.7进行开发,注意配置好环境变量。
IDE
我们使用Pycharm进行开发,它和大名鼎鼎的Android Studio、IDEA同出一门——Jet Brains。
关于破解,很无耻的贴两个:
用户名:yueting3527
注册码:
===== LICENSE BEGIN =====
93347-12042010
00001FMHemWIs"6wozMZnat3IgXKXJ
2!nV2I6kSO48hgGLa9JNgjQ5oKz1Us
FFR8k"nGzJHzjQT6IBG!1fbQZn9!Vi
===== LICENSE END =====
1
2
3
4
5
6
7
8
用户名:yueting3527
注册码:
===== LICENSE BEGIN =====
93347-12042010
00001FMHemWIs"6wozMZnat3IgXKXJ
2!nV2I6kSO48hgGLa9JNgjQ5oKz1Us
FFR8k"nGzJHzjQT6IBG!1fbQZn9!Vi
===== LICENSE END =====
1
2
3
4
5
6
7
8
9
Requests模块
Requests模块是一个用于替代Python URLLib2的一个第三方网络请求库。
安装
Windows:pip install requests
Linux & Mac:sudo pip install requests
但由于有些比较奇怪的原因,导致这个下载过程异常艰辛,所以我们经常需要使用这样一个网站来帮助我们下载:
http://www.lfd.uci.edu/~gohlke/pythonlibs/
这里面镜像收集了几乎所有的Python第三方库,我们搜索Requests,点击下载。
下载完毕后,更改后缀名为zip。并将解压出的Requests文件夹放到Python的Lib文件夹下。
通过Requests获取网页源代码
无反爬虫机制
直接使用Requests库的get方法获取网页源代码:
import requests
html = requests.get('http://www.hujiang.com/')
print(html.text)
1
2
3
4
5
6
在终端中,我们就可以看见生成的网页源代码了。
有反爬虫机制
但是,很多网站并不会轻松的让爬虫获取到网页信息,这时候,我们就需要通过修改Http头信息的方式来获取。
例如我们使用同样的代码去爬我的博客 http://blog.youkuaiyun.com/eclipsexys 在终端中,我们可以看见这样一段话:
<html>
<head><title>403 Forbidden</title></head>
<body bgcolor="white">
<center><h1>403 Forbidden</h1></center>
<hr><center>nginx</center>
</body>
</html>
1
2
3
4
5
6
7
403,这时候,我们就需要修改下爬虫代码。
Python
我们使用Python2.7进行开发,注意配置好环境变量。
IDE
我们使用Pycharm进行开发,它和大名鼎鼎的Android Studio、IDEA同出一门——Jet Brains。
关于破解,很无耻的贴两个:
用户名:yueting3527
注册码:
===== LICENSE BEGIN =====
93347-12042010
00001FMHemWIs"6wozMZnat3IgXKXJ
2!nV2I6kSO48hgGLa9JNgjQ5oKz1Us
FFR8k"nGzJHzjQT6IBG!1fbQZn9!Vi
===== LICENSE END =====
1
2
3
4
5
6
7
8
用户名:yueting3527
注册码:
===== LICENSE BEGIN =====
93347-12042010
00001FMHemWIs"6wozMZnat3IgXKXJ
2!nV2I6kSO48hgGLa9JNgjQ5oKz1Us
FFR8k"nGzJHzjQT6IBG!1fbQZn9!Vi
===== LICENSE END =====
1
2
3
4
5
6
7
8
9
Requests模块
Requests模块是一个用于替代Python URLLib2的一个第三方网络请求库。
安装
Windows:pip install requests
Linux & Mac:sudo pip install requests
但由于有些比较奇怪的原因,导致这个下载过程异常艰辛,所以我们经常需要使用这样一个网站来帮助我们下载:
http://www.lfd.uci.edu/~gohlke/pythonlibs/
这里面镜像收集了几乎所有的Python第三方库,我们搜索Requests,点击下载。
下载完毕后,更改后缀名为zip。并将解压出的Requests文件夹放到Python的Lib文件夹下。
通过Requests获取网页源代码
无反爬虫机制
直接使用Requests库的get方法获取网页源代码:
import requests
html = requests.get('http://www.hujiang.com/')
print(html.text)
1
2
3
4
5
6
在终端中,我们就可以看见生成的网页源代码了。
有反爬虫机制
但是,很多网站并不会轻松的让爬虫获取到网页信息,这时候,我们就需要通过修改Http头信息的方式来获取。
例如我们使用同样的代码去爬我的博客 http://blog.youkuaiyun.com/eclipsexys 在终端中,我们可以看见这样一段话:
<html>
<head><title>403 Forbidden</title></head>
<body bgcolor="white">
<center><h1>403 Forbidden</h1></center>
<hr><center>nginx</center>
</body>
</html>
1
2
3
4
5
6
7
403,这时候,我们就需要修改下爬虫代码。