爬去孔夫子所有店铺的评论

本文档介绍了如何爬取孔夫子旧书网上所有店铺的评论。首先,通过正则表达式获取店铺网址,接着获取每个店铺的userId,再设置最大页数爬取评论内容。当返回值为空时,结束爬取。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

我们上次爬去了孔夫子店铺的一家评论
现在我们要爬去孔夫子店铺的所有评论


首先,找到一个店铺网站的目录:该网站地址
从这个网站中获取到各家店铺的网址。
用最简单的正则表达式就可以爬取到在这里插入图片描述
二,上次我们得知每个店铺的url都是稍微不同其中:
在这里插入图片描述
所以我们先要获取到每个店铺的userId
在这里插入图片描述
然后进行爬去内容。
,要爬取完所有的内容,我们必须要将页数设置到最大。
但是会返回值为空。当返回值为空时。我们要结束该循环。
因为爬取的内容在列表中,列表为空返回值就是空的
在这里插入图片描述

完整代码:


```python
import urllib.request
import re
import json
import pymysql
import urllib.request

# -*-coding:utf-8-*-

conn = pymysql.connect(host='localhost',
                       user='root',
                       database='r_l',
                       password='123456789',
                       charset='utf8')
print('链接数据库成功')
cur=conn.cursor()
sql="""CREATE TABLE kfzpl (commodity CHAR(20),content  text(255),name CHAR(20))"""
cur.execute("DROP TABLE IF EXISTS kfzpl")
cur.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值