Python Selenium实现抖音评论数据的自动化采集附源码

最新推荐文章于 2025-01-28 10:31:54 发布

LIY若依

最新推荐文章于 2025-01-28 10:31:54 发布

阅读量5k

点赞数 22

文章标签： python 自动化 selenium

本文链接：https://blog.youkuaiyun.com/m0_74972192/article/details/140914387

版权

这篇博客介绍了如何使用 Selenium 自动化浏览器操作，从抖音网页中提取评论数据，并将其保存到一个文本文件中。通过配置无头浏览器、访问指定网页、获取特定元素、处理和过滤数据，最终将结果保存到文件中。这种方法可以用于自动化测试、数据抓取和数据分析等领域，展示了 Selenium 在网页自动化和数据抓取方面的强大功能。

对数据进行分析与处理可以参考使用 SnowNLP 对抖音评论进行情感分析与倾向评分-优快云博客https://blog.youkuaiyun.com/m0_74972192/article/details/140899608?spm=1001.2014.3001.5501

代码解析

导入库：

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
import time

selenium：用于自动化浏览器操作。
time：用于暂停程序执行。

配置 Chrome 选项：
```
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')
```
- 创建 Options 对象并添加一些参数：
  - --headless：无头模式，不显示浏览器界面。
  - --disable-gpu：禁用 GPU 加速。
  - --no-sandbox：禁用沙盒模式。
  - --disable-dev-shm-usage：禁用 /dev/shm 共享内存。

启动浏览器：

driver = webdriver.Chrome(options=chrome_options)
driver.get('https://www.douyin.com/?recommend=1')
time.sleep(10)

使用配置好的选项启动 Chrome 浏览器。
打开指定的 URL（抖音）。

暂停程序：
```
time.sleep(10)
```
- 使用 time.sleep(10) 暂停程序 10 秒，等待页面加载完成。
获取特定属性的 div 元素：
```
elements = driver.find_elements(By.CSS_SELECTOR, 'div[data-e2e="comment-item"]')
```
- 使用 find_elements 方法获取所有包含 data-e2e="comment-item" 属性的 div 元素。
```
with open('output.txt', 'w', encoding='utf-8') as file:
```
打开文件以写入：
- 打开一个名为 output.txt 的文件，以写入模式和 UTF-8 编码。

遍历每个 div 元素：

for element in elements:
    spans = element.find_elements(By.TAG_NAME, 'span')
    user = ''
    comment = ''
    time = ''

获取每个 div 元素中的所有 span 元素。
初始化变量 user、comment 和 time。

遍历每个 span 元素的数据：

for span in spans:
    if not span.find_elements(By.TAG_NAME, 'img'):
        text_content = span.text.strip()
        if '展开' in text_content and '回复' in text_content:
            continue
        if text_content.isdigit():
            continue
        if '前·' in text_content:
            time = f'时间: {text_content}'
        elif not user and '回复' not in text_content:
            user = f'用户: {text_content}'
        elif '回复' not in text_content:
            comment = f'评论: {text_content}'

检查 span 元素是否包含 img 元素。
获取 span 元素的文本内容并进行处理：
- 过滤掉包含“展开”和“回复”的文本。
- 过滤掉纯数字内容。
- 分类并存储用户、评论和时间信息。

写入分类后的数据到文件：
```
if user and comment:
    file.write(user + '\n')
    file.write(comment + '\n')
if time:
    file.write(time + '\n')
```
- 如果 user 和 comment 都存在，则写入文件。
- 如果 time 存在，则写入文件。
关闭浏览器：
```
driver.quit()
```
- 使用 driver.quit() 关闭浏览器。

完整代码

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
import time

# 配置 Chrome 选项
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')

# 启动浏览器
driver = webdriver.Chrome(options=chrome_options)
driver.get('https://www.douyin.com/?recommend=1')

time.sleep(10)

# 获取所有包含特定属性的 div 元素
elements = driver.find_elements(By.CSS_SELECTOR, 'div[data-e2e="comment-item"]')

# 打开文件以写入
with open('output.txt', 'w', encoding='utf-8') as file:
    # 遍历每个 div 元素
    for element in elements:
        # 获取 div 元素中的所有 span 元素
        spans = element.find_elements(By.TAG_NAME, 'span')

        # 存储用户和评论的变量
        user = ''
        comment = ''
        time = ''

        # 遍历每个 span 元素的数据
        for span in spans:
            # 检查 span 元素是否包含 img 元素
            if not span.find_elements(By.TAG_NAME, 'img'):
                # 获取 span 元素的文本内容
                text_content = span.text.strip()

                # 过滤掉“评论: 展开2条回复”格式的数据
                if '展开' in text_content and '回复' in text_content:
                    continue

                # 过滤掉纯数字内容
                if text_content.isdigit():
                    continue

                # 判断并分类打印用户和时间
                if '前·' in text_content:
                    time = f'时间: {text_content}'
                elif not user and '回复' not in text_content:
                    user = f'用户: {text_content}'
                elif '回复' not in text_content:
                    comment = f'评论: {text_content}'

        # 写入分类后的数据到文件
        if user and comment:
            file.write(user + '\n')
            file.write(comment + '\n')
        if time:
            file.write(time + '\n')

# 关闭浏览器
driver.quit()

运行结果

运行结果是一个名为 output.txt 的文件，包含从抖音网页提取的用户、评论和时间信息。

用户: ^乐天派^
评论: 六神合体都出来了
时间: 2周前·辽宁
用户: 卖女孩的小火柴
评论: 螃蟹是赛博坦来的
时间: 1天前·浙江
用户: pico(腐化)
评论: 这玩具的官方什么时候出这三
时间: 1周前·湖南
用户: LBZ
评论: 好熟悉，我回忆起来了
时间: 1周前·湖北
用户: LEOZ
评论: 怎么一股果宝特攻的味道
时间: 2周前·广东

扩展

无头浏览器的应用：
- 自动化测试：无头浏览器常用于自动化测试，特别是在持续集成和持续部署（CI/CD）环境中，可以在没有图形界面的服务器上运行测试。
- 数据抓取：无头浏览器可以用于数据抓取，从网页中提取数据而不需要显示浏览器界面，节省资源。
数据处理和过滤：
- 正则表达式：可以使用正则表达式来更精确地过滤和提取数据。例如，可以用正则表达式匹配特定格式的文本内容。
- 自然语言处理（NLP）：可以使用 NLP 技术对提取的数据进行进一步处理和分析，例如情感分析、关键词提取等。