Python爬虫----爬取腾讯动漫全站漫画

最新推荐文章于 2024-05-09 21:16:36 发布

原创

最新推荐文章于 2024-05-09 21:16:36 发布 · 2.9k 阅读

80 ·

CC 4.0 BY-SA版权

文章标签：

#python #selenium #chrome #html

本文介绍了如何使用Python结合selenium库，通过Chrome浏览器爬取腾讯动漫网站上的所有漫画，并将下载的内容保存到本地文件夹。详细讲述了实现代码及最终效果。

目标网站：https://ac.qq.com/
实现功能：下载全部漫画到本地文件夹中
实现代码：

import requests
from lxml import etree
from selenium import webdriver
from time import sleep
from bs4 import BeautifulSoup
from selenium.webdriver.chrome.options import Options
import os

#打开腾讯动漫首页
url = 'https://ac.qq.com/'
#给网页发送请求
data = requests.get(url).text
#将网页信息转换成xpath可识别的类型
html = etree.HTML(data)
#提取到每个漫画的目录页地址
comic_list = html.xpath('//a[@class="in-rank-name"]/@href')
#print(comic_list)
#遍历提取到的信息
for comic in comic_list:
    #拼接成为漫画目录页的网址
    comic_url = url + str(comic)
    #从漫画目录页提取信息
    url_data = requests.get(comic_url).text
    #准备用xpath语法提取信息
    data_comic = etree.HTML(url_data)
    #提取漫画名--text（）为提取文本内容
    name_comic = data_comic.xpath("//h2[@class='works-intro-title ui-left']/strong/text()")
    #提取该漫画每一页的地址
    item_list = data_comic.xpath("//span[@