selenium爬取TapTap评论

原创

于 2024-05-10 10:51:51 发布 · 1.6k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#selenium #python #爬虫 #网络爬虫

上一篇写的beautifulsoup和request爬取出的结果有误。首先，TapTap网页以JS格式解析，且评论并没有“下一页”，而是每次加载到底部就要进行等待重新加载。我们需要做的，是模仿浏览器的行为，所以这里我们用Selenium的方式爬取。

下载ChromeDriver

ChromeDriver作用是给Pyhton提供一个模拟浏览器，让Python能够运行一个模拟的浏览器进行网页访问用selenium进行鼠标及键盘等操作获取到网页真正的源代码。

官方下载地址：https://sites.google.com/a/chromium.org/chromedriver/downloads

注意，一定要下载自己chrome浏览器对应版本的驱动，根据自己的电脑版本下载对应系统的文件

以Windows版本为例，将下载好的chromedriver_win64.zip解压得到一个exe文件，将其复制到Python安装目录下的Scripts文件夹即可

爬虫操作

首先导入所需库

import pandas as pd
import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

滚动到底部的驱动

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

illusionbigdata

关注关注

12
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python 爬虫实战：在 TapTap 抓取手游评分与评论数据，筛选优质手游

u014481728的博客

02-03

1447

通过本文的 Python 爬虫实战，我们成功抓取了 TapTap 的手游评分与评论数据，并进行了数据分析和可视化。通过爬虫技术，我们可以快速获取大量的手游评分与评论数据，通过数据分析，可以洞察玩家对游戏的评价和喜好，为筛选优质手游提供参考。在实际应用中，可以根据需求进一步扩展爬虫功能，例如抓取更多维度的数据、进行更深入的数据挖掘和分析等。希望本文对您学习 Python 爬虫技术以及手游数据分析有所帮助！

Python爬虫：使用Selenium爬取微博评论区

2201_76125261的博客

03-15

568

本文介绍了如何使用 Python 和 Selenium 爬取微博评论区数据，包括如何登录微博、获取评论内容、处理反爬虫机制、保存评论数据等。本文将介绍如何利用 Python 和 Selenium 库爬取微博评论区数据，包括如何模拟浏览器行为、处理动态加载的页面、翻页爬取评论以及如何保存和分析评论数据。在微博的评论区中，聚集了大量的用户观点和评论数据，这些数据对舆情分析、社会趋势研究等具有重要价值。微博的评论数据是通过 AJAX 请求动态加载的，因此我们需要通过模拟滚动操作，加载更多评论。

参与评论您还未登录，请先登录后发表或查看评论

TAPTAP游戏评论的文本挖掘（完整源码项目说明）（包括APP爬虫、数据清洗、pyecharts可视化、情感分析）.zip

02-28

1、该资源内项目代码经过严格调试，下载即用确保可以运行！ 2、该资源适合计算机相关专业(如计科、人工智能、大数据、数学、电子信息等)正在做课程设计、期末大作业和毕设项目的学生、或者相关技术学习者作为学习资料参考使用。 3、该资源包括全部源码，需要具备一定基础才能看懂并调试代码。 TAPTAP游戏评论的文本挖掘（完整源码项目说明）（包括APP爬虫、数据清洗、pyecharts可视化、pytorch框架下LSTM模型情感分析）.zipTAPTAP游戏评论的文本挖掘（完整源码项目说明）（包括APP爬虫、数据清洗、pyecharts可视化、pytorch框架下LSTM模型情感分析）.zipTAPTAP游戏评论的文本挖掘（完整源码项目说明）（包括APP爬虫、数据清洗、pyecharts可视化、pytorch框架下LSTM模型情感分析）.zipTAPTAP游戏评论的文本挖掘（完整源码项目说明）（包括APP爬虫、数据清洗、pyecharts可视化、pytorch框架下LSTM模型情感分析）.zip

TapTap玩家评论——从爬虫到情感分析：APP爬虫、数据清洗、Pyecharts可视化、Word2Vec建模、LSTM建模

深度学习迭代中

03-24

5746

TAPTAP评论的文本挖掘背景玩家评论可以为游戏的版本迭代提供重要参考，假如可以快速定位玩家的负面评价，则能够节约收集意见的时间成本。本项目通过文本挖掘方法，展示从数据采集到情感模型评价的全过程。本项目的完整代码：Github地址本项目可视化的动态展示：和鲸地址一、爬虫 TAPTAP评论数据通过JSON返回，使用python中的Requests库非常容易就可以提取里面的内...

爬虫爬取某游戏评论

lxlx123abc的博客

06-07

2285

本次的目标网站为： https://www.taptap.com/app/192976/review 首先进去网站可以看到如下界面进去网站后找到所有评论所在位置你然后点击，点击"F12"以后点击" Netword "以后刷新可以得到如下界面如上图，不断的将评论往下拉可以看到右边会新加一些请求，就会发现该网站为动态网站，点开这些请求以后，会发现我们所与需要的数据就在这里：观察这些网址的参数下面为第一个网址的参数 app_id: 192976 limit: 10 mainRequest: tr

爬虫爬取taptap上关于厂商的评论

weixin_44615857的博客

11-29

1086

taptap 简介意义直接code代码 # coding:utf-8 # 2019-10-14 # 爬取腾讯厂商评论 import requests import csv import time import pandas from bs4 import BeautifulSoup import re def get_page(url, headers): data = [] ...

Python网络爬虫实战：《跨越星弧》TapTap玩家评论的抓取及分析

狸克先生的笔记本

05-23

4826

先说说背景吧：之前玩了一段时间的《跨越星弧》，后来太忙了就没玩了，最近突然想起来想看看，发现TapTap评分居然掉到7.7分了其实我觉得这个产品挺好的，玩法、剧情、美术都有可圈可点之处。但是为什么突然就从8.5分+掉到7.7了呢于是我就去翻了翻评论，翻了10+页，好像也没看出什么问题。也没兴致往下看了，因为评论真的太多了，这样人工一条条的看，根本看不出个所以然来刚好最近在看游戏数据分析，于...

taptap评论爬虫

weixin_48001478的博客

03-12

2199

taptap评论爬虫情感分析 1、下载fidder 1.1、官方下载官网下载链接: fidder. 1.2、fidder使用使用fidder获取url: b站视频. 1.3、获取并复制保存url 2、评论爬虫和保存 2.1、爬虫的代码 import requests import os import re import random impor...

TapTap 评论爬取、分类和基于 Attention 的可视化

莉莉兹的摸鱼日记

08-14

6022

结构： -- `cache` //存放中间缓存文件。做完全套占空间其实还挺多的，扒下来60MB的数据楞有5个G的缓存 -- `data` //合并单个文件之后得到的所有评论。大概有18万条。 -- `playground` //由于比较菜很多步骤是在 Notebook 边实验边写的，包括合并数据啊简单统计啊之类的。还有作图 -- `spider` //爬虫代码。跟上一个项目一样 -...

python爬虫：用无头浏览器selenium爬取taptap游戏榜单并保存为csv

ones133的博客

03-21

2103

用selenium爬取taptap游戏榜单，并保存为csv。网站：https://www.taptap.com/top/download 字段：榜单、游戏名称、排名、厂商、评分、游戏类型。代码如下： from selenium import webdriver # 引入webdriver from selenium.webdriver.support.wait import WebDriverWait # 元素定位要用 import t

Python爬虫获取网上评论

10-05

演示了如何利用Python库获取网上关于汽车的评估的方法。乃至了urllib库、BeautifulSoup库等。

python分析taptap游戏评价，生成词云

09-04

python分析taptap游戏评价，生成词云

TAPTAP游戏评论的文本挖掘.zip

03-25

包括APP爬虫、数据清洗、pyecharts可视化、pytorch框架下LSTM模型情感分析爬虫（Web Crawler）是一种自动化程序，用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储，以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的工作流程包括以下几个关键步骤： URL收集：爬虫从一个或多个初始URL开始，递归或迭代地发现新的URL，构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。请求网页：爬虫使用HTTP或其他协议向目标URL发起请求，获取网页的HTML内容。这通常通过HTTP请求库实现，如Python中的Requests库。解析内容：爬虫对获取的HTML进行解析，提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据，如文本、图片、链接等。数据存储：爬虫将提取的数据存储到数据库、文件或其他存储介质中，以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。遵守规则：为避免对网站造成过大负担或触发反爬虫机制，爬虫需要遵守网站的robots.txt协议，限制访问频率和深度，并模拟人类访问行为，如设置User-Agent。反爬虫应对：由于爬虫的存在，一些网站采取了反爬虫措施，如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。爬虫在各个领域都有广泛的应用，包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而，使用爬虫需要遵守法律和伦理规范，尊重网站的使用政策，并确保对被访问网站的服务器负责。

taptap分析1

08-08

因此他的需求如下玩很多高品质游戏与他人交流，分析游戏经验能获得他人的赞赏或激励综上所述，游戏发烧者对“TapTap”客户端需求如下：评分高的游戏要聚集在一起完善

python+selenium爬取亚马逊商品评论详情

02-28

亚马逊评论详情页是动态加载的，不过多折腾，直接用selenium进行爬取；用pandas写入csv文件，解决乱码、无序问题；

Python selenium爬取微信公众号文章代码详解

09-16

主要介绍了Python selenium爬取微信公众号历史文章代码详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

BeautifulSoup库TapTap评论爬虫

mynameispy的博客

05-06

1809

最近在写关于评论数据主题建模和情感分析的作业，本来想用八爪鱼直接爬TapTap的评论数据，但是自动识别网页总是定位错误，还是回归BeautifulSoup和Request来进行评论内容的爬取，具体操作步骤如下。

selenium爬取评论

weixin_48718856的博客

05-05

709

from selenium import webdriver driver=webdriver.Chrome() # 自动访问的网站 driver.get("http://www.santostang.com/2018/07/04/hello-world/") fo = open("result.txt", "a+") fo.truncate(0) for ii in range(0, 3): # i指的是每页有10小页 for i in range(0, 10): .

20200527-taptap评论爬取

sinat_21748377的博客

05-27

1511

import requests from bs4 import BeautifulSoup from fake_useragent import UserAgent def url_get(url,head): res = requests.get(url, headers=head) print(res.status_code) html = res.text return html def html_get(html): soup = BeautifulS

selenium爬取微博评论

最新发布

03-22

### 如何使用 Selenium 爬取新浪微博评论数据为了成功爬取新浪微博的评论数据，可以按照以下方法操作。此过程涉及多个关键环节，包括登录、定位页面元素以及处理动态加载的内容。 #### 1. 登录微博账号由于新浪微博有严格的反爬虫机制，因此需要先完成模拟登录才能访问受保护的数据。可以通过 `selenium` 自动化控制浏览器输入用户名和密码并提交表单[^4]。 ```python from selenium import webdriver from selenium.webdriver.common.by import By import time driver = webdriver.Chrome() driver.get('https://weibo.com') # 定位用户名和密码字段，并填写信息 username_input = driver.find_element(By.NAME, 'username') password_input = driver.find_element(By.NAME, 'password') submit_button = driver.find_element(By.CLASS_NAME, 'login_btn') username_input.send_keys('your_username') password_input.send_keys('your_password') submit_button.click() time.sleep(5) # 等待页面跳转 ``` #### 2. 访问目标微博页面在登录完成后，导航至具体的目标微博页面。通常每条微博都有唯一的 URL 地址，可以直接通过该地址进入详情页[^2]。 ```python target_weibo_url = "https://weibo.com/xxx" # 替换为目标微博的实际URL driver.get(target_weibo_url) time.sleep(3) # 等待页面完全加载 ``` #### 3. 处理 Ajax 动态加载新浪微博采用 AJAX 技术异步加载更多评论内容，在这种情况下单纯依赖静态 HTML 是不够的。需借助 `selenium` 的滚动功能触发更多的评论显示出来[^1]。 ```python def scroll_down(driver): last_height = driver.execute_script("return document.body.scrollHeight;") while True: driver.execute_script("window.scrollTo(0, document.body.scrollHeight);") time.sleep(2) new_height = driver.execute_script("return document.body.scrollHeight;") if new_height == last_height: break last_height = new_height scroll_down(driver) ``` #### 4. 提取评论数据当所有可见区域内的评论都被加载完毕之后，就可以开始解析 DOM 树获取所需的信息了。这里推荐使用 XPath 或 CSS Selectors 来精确定位各个评论节点[^3]。 ```python comments_elements = driver.find_elements(By.CSS_SELECTOR, '.comment_item .content span.txt') for comment in comments_elements: print(comment.text.strip()) ``` #### 数据存储最后一步就是把收集到的数据保存下来供进一步分析之用。可以选择多种方式如写入文件或者存入数据库等。 ```python with open('weibo_comments.txt', mode='w+', encoding='utf8') as f: for cmt in extracted_comments: f.write(cmt + '\n') ``` --- ### 注意事项 - **频率控制**：频繁请求可能会被服务器识别为恶意行为而封禁IP，建议适当增加延时。 - **异常捕获**：实际运行过程中难免遇到各种意外状况，应加入 try-except 块提高稳定性。 - **合法性声明**：确保遵守相关法律法规和服务条款，仅用于合法目的。