本文使用selenium + Chrome + + requests + 多进程的方式进行爬取
本文只能爬取免费的漫画,对于付费的漫画没有做相关的处理
本文仅供学习交流使用,严禁用于商业用途
开门见山。直接上代码
先进行导入模块,项目初始化
from selenium import webdriver
import requests
import os,sys
import time
class Tencent(object):
def __init__(self,url='https://ac.qq.com/ComicView/index/id/505430/cid/1'):
#当前文件路径
self.path = os.path.dirname(os.path.realpath(sys.argv[0]))
#设置消息头
self.headers = {
"User-Agent":"Mozilla/5.0"}
#传入要爬取的url
#测试页面,腾讯动漫海贼王第一话
self.url = url
打开网页,从顺序模式切换到对页模式,网站默认是顺序阅读模式
def open_url(self):
self.driver.get(self.url)
#先切换至对页模式,因为腾讯动漫采用异步加载模式且使用driver.execute_script()方法无法操作界面,
#但是点击事件可以正常触发,所以为了方便,可切换到对页模式
self.driver.find_element_by_id('crossPage').click()
self.img

本文介绍了使用selenium+Chrome+requests+多进程爬取腾讯动漫免费漫画的步骤,详细讲解了如何处理网页、匹配图片地址并保存。代码已在Windows环境下测试,提供项目源码链接,但不适用于Linux/Unix环境。
最低0.47元/天 解锁文章
1289

被折叠的 条评论
为什么被折叠?



