Python爬虫

最新推荐文章于 2024-08-19 17:05:17 发布

shenchen_

最新推荐文章于 2024-08-19 17:05:17 发布

阅读量488

点赞数

环境准备

Python

我们使用Python2.7进行开发，注意配置好环境变量。

IDE

我们使用Pycharm进行开发，它和大名鼎鼎的Android Studio、IDEA同出一门——Jet Brains。

关于破解，很无耻的贴两个：

用户名：yueting3527
注册码：
===== LICENSE BEGIN =====
93347-12042010
00001FMHemWIs"6wozMZnat3IgXKXJ
2!nV2I6kSO48hgGLa9JNgjQ5oKz1Us
FFR8k"nGzJHzjQT6IBG!1fbQZn9!Vi
===== LICENSE END =====
1
2
3
4
5
6
7
8
用户名：yueting3527

注册码：
===== LICENSE BEGIN =====
93347-12042010
00001FMHemWIs"6wozMZnat3IgXKXJ
2!nV2I6kSO48hgGLa9JNgjQ5oKz1Us
FFR8k"nGzJHzjQT6IBG!1fbQZn9!Vi
===== LICENSE END =====
1
2
3
4
5
6
7
8
9
Requests模块

Requests模块是一个用于替代Python URLLib2的一个第三方网络请求库。

安装

Windows：pip install requests
Linux & Mac：sudo pip install requests
但由于有些比较奇怪的原因，导致这个下载过程异常艰辛，所以我们经常需要使用这样一个网站来帮助我们下载：

http://www.lfd.uci.edu/~gohlke/pythonlibs/

这里面镜像收集了几乎所有的Python第三方库，我们搜索Requests，点击下载。

下载完毕后，更改后缀名为zip。并将解压出的Requests文件夹放到Python的Lib文件夹下。

通过Requests获取网页源代码

无反爬虫机制

直接使用Requests库的get方法获取网页源代码：

import requests

html = requests.get('http://www.hujiang.com/')

print(html.text)
1
2
3
4
5
6
在终端中，我们就可以看见生成的网页源代码了。

有反爬虫机制

但是，很多网站并不会轻松的让爬虫获取到网页信息，这时候，我们就需要通过修改Http头信息的方式来获取。

例如我们使用同样的代码去爬我的博客 http://blog.youkuaiyun.com/eclipsexys 在终端中，我们可以看见这样一段话：

<html>
<head><title>403 Forbidden</title></head>
<body bgcolor="white">
<center><h1>403 Forbidden</h1></center>
<hr><center>nginx</center>
</body>
</html>
1
2
3
4
5
6
7
403，这时候，我们就需要修改下爬虫代码。