Python爬取糗事百科段子
Python2.7.15
今天我们来爬取糗事百科的段子
一、获取糗事百科的网页源码
首先,打开浏览器,进入糗事百科,复制它的网址。
然后我们翻个页,可以看到,网址变成了这样,加上了页码。
待会我们用代码翻页,就是更改这个网址最后的这个数字。
首先,我们引入代码对应的模块
# coding=utf-8
import urllib2
import re
import MySQLdb
utf-8是中文编码
urllib2模块的方法获取网页
re模块用来写正则表达式
MySQLdb是MySQL数据库对应的模块
老办法获取网页源码
不过这次加了一个for循环来翻页
for page in range(1,14):
url = "https://www.qiushibaike.com/8hr/page/" + str(page) + "/"
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }
request = urllib2.Request(url, headers=headers)
response = urllib2.urlopen(request)
content = response.rea