python:爬虫-selenium,BeautifulSoup,urllib

本文介绍了使用Python进行网络爬虫的实践,结合Selenium、BeautifulSoup和urllib库,模拟浏览器行为抓取网页数据并下载资源。通过VS2017安装Python环境和所需包,重点讲述了安装和配置WebDriver,以及如何处理动态加载内容。最终,使用Pyinstaller将爬虫程序打包成exe文件,并分享了打包过程和注意事项。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言:自学python,第一个想到的就是爬虫。前面用C#做了爬虫,可随意下载全职高手的有声小说的集数(ps:这有声小说在授权应用里收费的)。想写个python 的,python以简洁语法著称,相信代码量不会比用C#实现多。

我用的VS2017为开发工具,装它的时候就把python环境一起安装了。很方便,想要安装包,在VS里工具-Python-Python环境窗口,在 [概述] 框中选择 [包(PyPI)] 输入想要安装的包名字,就会出现 让你选择 pip xxxx 命令安装包。

此次爬虫用到的是selenium,加上webDriver+headless Chrome可模拟谷歌或者火狐浏览器等运行网站,BeautifulSoup抓取网页数据,urllib根据链接下载文件。

这里准备工作麻烦一点的是webDriver的安装,chromedriver.exe下载地址,选择对版本。

对于任何爬虫网站不管它有多复杂,嵌入了多少iframe,总是会有迹可循的。所以这里需要一点点技巧,找到想要的关键链接。爬虫网站:有声听书吧人家改了域名,改了运行规则,那可就没招了,据我所研究这个网站经常变域名)。 这网站很多乱入广告,资源每一集的链接都不一样,其真正的播放资源就在这些网页中,这里我只做了爬取 全职高手有声小说的资源。另外最后用Pyinstaller将其打包成exe了。

直接上代码吧:

# -*- coding: utf-8 -*-
from selenium import webdriver
from bs4 import BeautifulSoup
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.wait import WebDriverWait
from s
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值