爬取马蜂窝用户评论页面

本文介绍如何爬取马蜂窝上的用户评论页面,重点在于处理URL中的编码字符,如%22、%3A和%2C,并指出poi_id用于标识景点(例如都江堰景区的id为13732)。每个评论页面的关键区别在于'page'和'_'参数,使用random.sample方法进行随机样本选择,示例中仅访问了第一页。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这次先爬一下马蜂窝旅行的用户评论页面,即“蜂蜂点评”,首先进入所要爬取的页面,推荐使用谷歌浏览器,按F12显示源码信息,选中js,因为每一页的评论都是动态加载的(注意到不管点第几页浏览器的地址栏都是不变的),用到了ajax技术,我们随意点一页看一下,比如第二页:
可以看到密密麻麻的信息,大家如果想详细了解每一项的意思可以自行谷歌,咱们在这就不细说了,其实大部分信息看名字就能读懂,比如编码格式,语言,cookie等,完整的有四大项:

我们要爬取评论信息,首先在请求消息头部封装必要的内容,这样吧,先上全部代码:
# -*- coding: utf-8 -*-
#导入requests库(请求和页面抓取)
import requests
#导入time库(设置抓取Sleep时间)
import time
#导入random库(生成乱序随机数)
import random
#设置请求头文件的信息
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebK
评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

beyond_LH

您的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值