点击免费领取《优快云大礼包》:
最新全套【Python入门到进阶资料 & 实战源码 & 安装工具】
在这个信息爆炸的时代,要想高效地获取数据,爬虫绝对是首选。而用python做爬虫也十分简单,下面就通过一个简单的小爬虫程序,来一睹写爬虫的基本过程:
一、准备工作
语言:python
IDE:pycharm
首先是要用到的库,因为是刚入门最简单的程序,我们主要就用到下面这两个:
import requests //用于请求网页
import re //正则表达式,用于解析筛选网页中的信息
其中re是python自带的,requests库需要我们自己安装,在命令行中输入pip install requests即可。
然后随便找一个网站,注意不要尝试爬取隐私敏感信息。
二、编写爬虫程序
开始爬虫前,我们首先应明确两点:
-
爬虫的网址;
-
需要爬取的内容(数据)。
第一步,爬虫的网址,我们拿某表情包网站来举例子。
首先肯定要通过python访问这个网站,代码如下:
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0'
}
response = requests.get('https://qq.yh31.com/zjbq/',headers=headers) //请求网页
其中之所以要加headers这一段,是因为有些网页会识别出python请求,然后拒绝,所以我们要换个正常的请求头。可以随便找一个或者f12从网络信息里复制一个。