Python爬取糗事百科段子

最新推荐文章于 2021-01-26 13:00:00 发布

原创

最新推荐文章于 2021-01-26 13:00:00 发布 · 456 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#Python

Python爬取糗事百科段子

Python2.7.15
今天我们来爬取糗事百科的段子

一、获取糗事百科的网页源码

首先，打开浏览器，进入糗事百科，复制它的网址。

在这里插入图片描述
然后我们翻个页，可以看到，网址变成了这样，加上了页码。

待会我们用代码翻页，就是更改这个网址最后的这个数字。

首先，我们引入代码对应的模块

# coding=utf-8
import urllib2
import re
import MySQLdb

utf-8是中文编码
urllib2模块的方法获取网页
re模块用来写正则表达式
MySQLdb是MySQL数据库对应的模块

老办法获取网页源码
不过这次加了一个for循环来翻页

for page in range(1,14):
    url = "https://www.qiushibaike.com/8hr/page/" + str(page) + "/"
    user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
    headers = { 'User-Agent' : user_agent }
    request = urllib2.Request(url, headers=headers)
    response = urllib2.urlopen(request)
    content = response.rea