淘宝评论爬虫python

最新推荐文章于 2025-06-24 10:57:29 发布

原创

最新推荐文章于 2025-06-24 10:57:29 发布 · 4.8k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#python

本文介绍了使用Python的Selenium库抓取淘宝商品评论的实践过程。针对requests请求失效的问题，作者转而使用Selenium，并发现在抓取99页之后，页面源码开始重复，无法获取更多评论。文章提出了疑问，期待高手解答这一现象。抓取的评论数据已存储，同时注意到网页上的评论顺序可能会因动态更新而变化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考：http://www.10tiao.com/html/284/201608/2652390011/1.html

由于链接里的requests跑着跑着就不能连远程主机了，所以我这里修改了一下，网页地址：https://detail.tmall.com/item.htm?spm=a230r.1.14.6.ebc5950lJXMdL&id=546515778506&cm_id=140105335569ed55e27b&abbucket=3&skuId=3467681798994，打开F12找到network下面开头是list_detail_rate.htm?itemId字样的，用新标签页打开会发现就是评论，如果不懂可以返回去看原链接的图文。这里我采用的是selenium抓的，然后发现只能抓到99页，100页及以上的页面源码都是重复的，有没有会的高手解释下？

from selenium import webdriver  
import re  
import json  
import time  
options = webdriver.ChromeOptions()  
options.add_argument('disable-infobars')  
driver = webdriver.Chrome(chrome_options=options)  
comments=[]  
  
for num in range(1,100):  
    print (num)  
    url="https://rate.tmall.com/list_detail_rate.htm?itemId=546515778506&spuId=811996209&sellerId=2996832334&order=3&currentPage="+str(num)+"&append=0&content=1&tagId=&posi=&picture=&ua&isg=AlBQD2WkPRrw9uEfSCoGx8wD