这次先爬一下马蜂窝旅行的用户评论页面,即“蜂蜂点评”,首先进入所要爬取的页面,推荐使用谷歌浏览器,按F12显示源码信息,选中js,因为每一页的评论都是动态加载的(注意到不管点第几页浏览器的地址栏都是不变的),用到了ajax技术,我们随意点一页看一下,比如第二页:

可以看到密密麻麻的信息,大家如果想详细了解每一项的意思可以自行谷歌,咱们在这就不细说了,其实大部分信息看名字就能读懂,比如编码格式,语言,cookie等,完整的有四大项:

我们要爬取评论信息,首先在请求消息头部封装必要的内容,这样吧,先上全部代码:
# -*- coding: utf-8 -*-
#导入requests库(请求和页面抓取)
import requests
#导入time库(设置抓取Sleep时间)
import time
#导入random库(生成乱序随机数)
import random
#设置请求头文件的信息
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebK