通过Python的PyQt4,实现对网页加载JS加密内容进行多个URL爬取,如何实现显示当前爬取进度?

本文介绍如何利用Python的PyQt4库,结合网页加载技术和解析JS加密内容,实现多URL爬虫,并展示爬取进度。通过实例讲解关键步骤,包括动态加载网页、解析加密数据以及进度条更新。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

# !/usr/bin/env python3
# -*- coding:utf-8 -*-
# @Time : 2020/9/20 21:26 
# @Author : aslen168
# @File : 测试5.py 
# @Software: PyCharm

import sys
from PyQt4 import QtCore, QtGui, QtWebKit
import requests
import bs4
import os
import pathlib

# 根据输入的小说主页,进入小说目录页,获取所有章节的网址。
url = input('请输入小说主页:')
# url = "https://aabook.cc/book.php?id=3100"
domain = url.split('book.php')[0]
# print(domain)
url2 = url.replace('book.php', 'archive.php')
# print(url2)
headers = {
   
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) '
                  'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
}
res = requests.get(url=url2, headers=headers)
res.encoding = res.apparent_encoding  # requests包get响应内容中文乱码解决方法
html = res.text
# print(html)
soup = bs4.BeautifulSoup(html, 'html.parser')
# print(soup)
chapters = soup.find(class_="section_list").find_all('a')
# print(chapters[0]['href'])
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值