selenium + Chrome自动化多线程爬取腾讯动漫漫画，项目实战

最新推荐文章于 2024-08-02 05:34:38 发布

原创

最新推荐文章于 2024-08-02 05:34:38 发布 · 置顶 · 1.7k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#python爬虫 #seleuium+Chrome #python项目 #多进程爬虫 #腾讯动漫爬取

本文介绍了使用selenium+Chrome+requests+多进程爬取腾讯动漫免费漫画的步骤，详细讲解了如何处理网页、匹配图片地址并保存。代码已在Windows环境下测试，提供项目源码链接，但不适用于Linux/Unix环境。

本文使用selenium + Chrome + + requests + 多进程的方式进行爬取
本文只能爬取免费的漫画，对于付费的漫画没有做相关的处理
本文仅供学习交流使用，严禁用于商业用途

开门见山。直接上代码

先进行导入模块，项目初始化

from selenium import webdriver
import requests
import os,sys
import time


class Tencent(object):
  def __init__(self,url='https://ac.qq.com/ComicView/index/id/505430/cid/1'):
    #当前文件路径
    self.path = os.path.dirname(os.path.realpath(sys.argv[0]))
    #设置消息头
    self.headers = {
   
   "User-Agent":"Mozilla/5.0"}
    #传入要爬取的url
    #测试页面，腾讯动漫海贼王第一话
    self.url = url

打开网页，从顺序模式切换到对页模式，网站默认是顺序阅读模式

  def open_url(self):
    self.driver.get(self.url)
    #先切换至对页模式，因为腾讯动漫采用异步加载模式且使用driver.execute_script()方法无法操作界面，
    #但是点击事件可以正常触发，所以为了方便，可切换到对页模式
    self.driver.find_element_by_id('crossPage').click()
    self.img