python-selenium抓图片

本文介绍了一个使用Selenium和Requests库的Python脚本,该脚本能够自动化地从腾讯动漫平台爬取《名侦探柯南》漫画的具体章节内容,包括章节标题和图片资源,并将图片保存到本地文件夹中。脚本通过模拟浏览器操作,如滚动页面和键盘按键,以及执行JavaScript代码来获取所需数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

from selenium import webdriver
from time import sleep
import win32api, os
import win32con, requests


def get_conan():
    num = 1
    # 循环120次
    for k in range(1, 121):
        driver = webdriver.Chrome("chromedriver.exe")
        driver.get("https://ac.qq.com/ComicView/index/id/623654/cid/%s" % k)
        driver.maximize_window()
        sleep(2)
        # 一直按下键
        for i in range(1000):
            win32api.keybd_event(40, 0, 0, 0)
            win32api.keybd_event(40, 0, win32con.KEYEVENTF_KEYUP, 0) 
            sleep(0.1)

        # 取出title在处理一下
        js1 = """return document.title"""
        title = driver.execute_script(js1)
        title1 = "第%s集" % num + title.split(" ")[1].split("-")[0]
        os.makedirs(title1)
        js = """
                var arr= [];for(var i=0;i<document.getElementsByClassName("loaded").length;i++){
               arr.push(document.getElementsByClassName("loaded")[i].src)};  return arr;
           """
        res_img = driver.execute_script(js)
        for index in range(len(res_img)):
            res = requests.get(res_img[index], timeout=50)
            with open(r"%s\%s.jpg" % (title1, index), "wb") as f:
                f.write(res.content)
        driver.quit()
        num += 1

        
get_conan()
Python中,爬取微信公众号的信息以及下载其中的图片通常涉及到网络包、HTML解析以及文件操作。这里简述一下基本步骤: 1. **安装必要的库**: - 使用`requests`库发送HTTP请求获取网页内容。 - `BeautifulSoup`或`lxml`用于解析HTML,提取需要的数据(如文章标题、图片链接等)。 - `selenium`如果页面有动态加载的内容,可以辅助爬取。 - `urllib.request`处理下载图片。 2. **获取文章列表**: - 访问微信公众号的文章列表页,模拟浏览器行为获取HTML源码。 - 使用BeautifulSoup或其他解析工具找到包含文章详情的链接部分。 3. **获取单篇文章信息**: - 对每个文章链接进行同样的请求和解析,提取标题、作者、发布时间以及图片URL。 4. **下载图片**: - 获取到图片链接后,使用`urllib.request`的`urlretrieve`函数或者更高级的`requests.get().content`来下载图片,并保存到本地。 5. **数据结构存储**: - 将相关信息整理成易于操作的数据结构,如字典或列表。 6. **注意法律问题**: 爬虫操作需遵守网站的Robots协议和版权法规,不要非法取敏感或受保护的内容。 下面是伪代码示例: ```python import requests from bs4 import BeautifulSoup # 步骤1 & 2 def get_article_list(url): response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') article_links = soup.select('.post-item a') # 根据实际HTML选择器找到链接 # 示例 for link in article_links: single_article_url = link['href'] article_info = get_single_article(single_article_url) # ...其他步骤同理 ``` 记得在实际操作前检查微信公众号的开发者文档,看看是否允许爬虫访问其内容,以及是否有API可供调用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值