- 博客(11)
- 收藏
- 关注
原创 python爬虫使用seleium+超级鹰+Image模块自动登录12306(附源码和登录视频)
利用代码自动登录12306官网是爬虫领域的经典行为,整个过程中的难点在于网站验证码的自动化突破,整个过程需要突破两个验证码的阻碍,一是文字选图,二是滑块。其中文字选图较为麻烦。但是还是有方法能够顺利进行网站的登录,代码一执行,直接会运行到登录后的界面。首先需要实例化一个brower对象,用于驱动浏览器browser = webdriver.Firefox(executable_path=r'D:\python\python安装\Scripts\geckodriver.exe')browser.g
2021-07-18 11:02:35
868
原创 python反爬虫应对之借助平台超级鹰突破网页验证码识别
在爬虫过程中,有些网页需要登录才能获取里面的数据,在大部分的登录过程中,都会需要一个叫验证码识别,目前的网页有各种各样的验证码,有数字加字母的组合,有物品识别等等在代码进行网页爬取过程中,如果由人为判断验证码进行,则失去了网络爬虫的意义网站设置验证码的作用之一就是一种反爬虫措施,但是这种措施目前仍然可以用一些技术手段进行自动识别,帮助爬虫工作者顺利突破验证码网络上进行验证码识别的平台有很多,如云打码、超级鹰,小编用的是超级鹰,虽然它需要充值,不过识别验证码的效果还是很不错的超级鹰:http:
2021-07-14 19:57:32
785
原创 python爬虫seleium模块基本操作
seleium是python中浏览器驱动模块,也是一个第三方库,在网络爬虫中,使用requests模块访问网站时,常常会遇到各种反爬措施,而seleium的出现可以模拟用户进行浏览器操作,能够看到正常用户使用浏览器的数据。使用seleium模块和requests不同,并不是直接import一下就好,它需要用户下载浏览器驱动程序,谷歌浏览器就下载 chromedriver 火狐浏览器就下载geckodriver,以下两篇文章可以学到方法,这里不作为重点谷歌:https://blog.csdn.n...
2021-07-13 23:19:29
661
原创 python异步爬虫(简单示例了解单线程和构建线程池)
python执行程序时,都会遵守从上到下,一行一行来,在执行爬虫时也一样。如果是一步一步来,这种代码执行方式可以称作单线程,串行方式,在URL少的时候没什么,一旦需要对很多URL进行请求时,效率很低,完全没有必要等一个完了再进行另外一个。于是就有了异步爬虫的概念,在小编看来,异步的意思就是同时执行的意思,也就是同时对多个URL请求,可以大大提高爬虫的效率。整体的思路是这样的,我们引入线程池,将请求可以封装成一个函数,将函数放在线程池中,再将请求URL形成一个列表也放入线程池中,就可以遍历列表所有的元
2021-07-10 20:52:47
310
原创 python反爬虫应对措施之搭建代理IP池
通过网络访问服务器时,服务器端会通过IP地址知道是谁来对其进行访问,我们在爬虫过程中,如果经常使用一个IP地址对同一个URL进行访问,此IP很有可能被服务器拉入黑名单,就访问不了此URL了,这是针对具有IP反爬措施的网站来说。百度直接搜索IP就会看到本机IP。既然有IP反爬措施,那就有反反爬对策,我们可以构建一个IP池,针对具有IP反爬措施的网站,每次访问时都随机取出来一个IP,这样就会很大程度上避免被服务器识别出爬虫,大大提高了爬取数据的成功率。给大家分享两个代理的网站,一个是免费的,叫快代理
2021-07-10 14:04:57
962
原创 python爬虫之喜马拉雅非vip音频下载
喜马拉雅是国内出名的音频网站,里面分为付费和免费的音频,小编这里教大家无需登录下载非vip音频,付费的小编还没有达到这个水平,主要是学习破解喜马拉雅xm-sign加密字段的方法我们还是用老方法,先找接口,随便点击一个音频找到它加载的url,复制红圈里的内容,进行全局搜索搜索后,找到一个新的URL,并且这个url的id就是网址中的最后一串数字,这个方法和kuwo音乐是一致的并且我们在这个URL中的response选项卡中,可以找到最开始的url地址,说明音频的地址来源于https://
2021-06-30 12:39:10
2230
3
原创 python爬虫之批量下载百度图片
输入想要获取的图片关键词,再输入数量,就可以自动完成下载保存,听起来还是蛮炫酷的,加下来小编就为大家带来自动下载百度图片的网络爬虫以百度图片为例,搜索关键字,会展示出很多图片...
2021-06-17 10:44:09
1971
9
原创 python爬虫之动态网页(以某宝、某猫、某东为例)
python爬取动态网页时,使用requests库就无法获取到在网页上动态加载的数据,举个例子,以淘宝为例,在搜索栏上搜索电脑,出现的所有商品信息都为动态加载的数据,
2021-06-16 11:34:22
3309
1
原创 python爬虫之静态网页(以当当网图书畅销榜榜为例)
在编写爬虫代码时,将网页分为静态网页和动态网页两种,不同类型的网页数据有着不同的处理办法,这篇文章简述爬取静态网页的方法,以当当网的图书销量为例。http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent30-0-0-1-1首先...
2021-06-16 09:02:15
3306
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人