
Python爬虫
文章平均质量分 89
小志codings
这个作者很懒,什么都没留下…
展开
-
逆向系列 | AES逆向加密案例分析
AES加密详解简介:全称高级加密标准(英文名称:Advanced Encryption Standard),在密码学中又称 Rijndael 加密法,由美国国家标准与技术研究院 (NIST)于 2001 年发布,并在 2002 年成为有效的标准,是美国联邦政府采用的一种区块加密标准。这个标准用来替代原先的 DES,已经被多方分析且广为全世界所使用,它本身只有一个密钥,即用来实现加密,也用于解密。mode支持CBC,CFB,CTR,CTRGladman,ECB,OFB 等。padding支持Zero原创 2021-12-28 02:16:11 · 4312 阅读 · 0 评论 -
新一代爬虫利器的介绍
Playwright是Microsoft在2020年初开源的新一代自动化测试工具,它的功能类似于Selenium、Pyppeteer等,都可以驱动浏览器进行各种自动化操作。它的功能也非常强大,对市面上主流浏览器都提供了支持,API功能简洁又强大。虽然诞生的比较晚,但是发展得非常火热。在Pyppeteer已经不再维护的年代,拥有Playwright这个开源工具是非常棒的选择,文档丰富,功能强大。安装方式conda config --add channels conda-forgeconda confi原创 2021-12-14 17:27:55 · 1994 阅读 · 1 评论 -
不会吧,不会吧,居然还有人不会安装MySQL?
大家好,我是剑南。时间过得很快,从我开始写公众号到现在已经有10个月的时间了,当然博客时间更长已经坚持有几年了。在18年的时候也曾遇到一些挫折。因为我写的是爬虫,很多时候都游走在犯罪的边缘,所以那时候被迫删除了大量的文章,并注销了账号,很多平台都显示文章要求整改。所以现在写爬虫都是小心翼翼,后期搞破解相关的内容我都打算自己搭建服务器来操作。今天我为大家带来的内容是MySQL的安装,为什么出这篇文章呢?因为在前期写的不少文章都是将数据存储到数据库中,导致很多小伙伴都有些不解的地方。因此,今天我就来写这篇教原创 2021-09-10 23:27:25 · 194 阅读 · 0 评论 -
爆赞!这篇文章详细的介绍了比requests更强大的宝库
文章目录协程初识异步http框架httpx安装httpx实践限制并发数使用Semaphore总结实战-笔趣阁网页分析获取网页源码获取所有的章节链接保存数据创建协程任务结果展示最后大家好,我是剑南!为了做一篇教程,我竟把一个小说网站给搞崩溃了,着实给我下了一跳,每次都是报出503的错误代码,意思是服务器不可访问,就是因为我用协程写了个爬虫程序。注意:本文仅仅提供学习使用,不可破坏网络,否则后果自负!!因为服务器接受不了这么大的压力,导致资源暂时无法访问,所以当我停止爬虫程序的时候,该小说网站逐渐恢复正原创 2021-08-31 21:37:47 · 760 阅读 · 0 评论 -
这怕是全网最详细的异步IO之协程详解!
大家好,我是剑南,今天我为大家带来的内容是python异步IO的协程知识的分享。为何引出协程协程是python中比较难理解的知识。在python中执行多任务可以采用多进程或者是多线程来执行,但是两者都存在一些缺点,因此,我们提出了协程。多线程优缺点分析优缺点分析优点:在一个进程内线程共享全局变量,多线程方便共享数据。缺点:线程可以对全局变量随意的修改,这会造成线程之间对全局变量的混乱(即线程非安全)引入案例import threadingimport timedef test1(nu原创 2021-08-19 19:16:23 · 463 阅读 · 0 评论 -
为避免尴尬,我竟爬取了两千多张斗图
大家好,我是啃书君。前几天和女神聊天的时候实在是太尬了,因为没有足够的斗图表情包,整个聊天的气氛都带动不起来,所以抑郁不得志!为了追到心目中的完美女神,我爬了一千多张斗图表情包,只为下一次聊天的时候,主动权都在我的手上。考虑到有些小伙伴可能在python基础不是很好,因此,啃书君决定先帮各位补补基础知识,大佬可以直接看实战内容。本次实战内容是爬取:斗图吧。面向对象python从设计开始就是一门面向对象的的语言,因此使用python创建一个类与对象是非常简单的一件事情。如果你以前没有接触过面向对象原创 2021-08-13 21:12:04 · 924 阅读 · 5 评论 -
python queue模块详解
大家好,我是剑南。本篇文章,为大家带来的是queue模块的详解!初识queue模块queue模块实现了多生产者、多消费者队列。这特别适用于消息必须安全地在多线程交换的线程编程。模块中的Queue类实现了所需要的锁定语义。该模块实现了三种类型的队列,它们的区别是任务取回的顺序。在FIFO队列中,先添加任务的先取回。在LIFO队列中,最后添加的任务先取回(该操作类似于堆栈)。在优先级队列中,条目将保持排序(使用heapq模块)并且最小值的任务第一个返回。创建“队列”对象import queueq原创 2021-08-08 15:05:56 · 1289 阅读 · 0 评论 -
面对充满诱惑的网站,可以用python做什么?
大家好,我是啃书君。看到文章的标题之后,想必你一定很好奇这篇文章是干什么的吧。目前网络上的很多文章写的爬虫主要是单线程的爬虫,因此,为了提高爬虫的效率,我今天就为大家带来了多线程的爬虫,带领大家一起学习线程。线程锁Threading模块为我们提供了一个类,Threading.Lock锁。我们创建该类的对象,在线程函数执行之前,“抢占”该锁,执行完成之后,“释放”该锁,则我们确保了每次只有一个线程占有该锁。这时对一个公共对象进行操作,则不会发生线程不安全的现象了。当多个线程同时访问一个数据库时,需要原创 2021-06-30 11:21:06 · 525 阅读 · 1 评论 -
你要的异步爬虫,这不来了吗?
爬虫程序的构成与完整链条大家好,我是啃书君。想必大家看了那么多的爬虫教程,都很希望知道以后的工作主要用爬虫做些什么以及自己需要掌握哪些技能吧。今天就为大家带来爬虫程序的构成与完整链条。爬虫程序与手机里安装的社交软件和娱乐软件不一样,但它们可能是互相关联的。你早上看到的新闻资讯以及股票走势图,都有可能是爬虫程序收集而来的。爬虫程序的核心是数据——它围绕着数据工作。爬虫程序的链条整理需求分析目标发出网络请求文本解析数据入库数据出库搜索引擎及时展示、信息聚合、数据分析、深度学习样本、运营原创 2021-06-24 00:09:19 · 156 阅读 · 0 评论 -
年轻小伙竟用python爬取B站视频评论!
大家好,我是啃书君。今天为大家带来的小demo是爬取B站视频的评论。开始还以为很难,等正真上手的时候发现,也就是那么回事。高考对于每个人来说都是人生的重大转折点,你考上一所什么样的大学,极大可能改变你未来的人生。因此,读书很重要,读书可以改变自己的命运。衡水中学的张锡锋,想必很多小伙伴们都认识吧,也是他激励了大多数人的学习热情,他的19年演讲视频在B站已经有1574万的播放量了,最近又出了一个新的视频《无产阶级的孩子跨越阶级的希望》,目前还没有多少人看,没有火起来。因此,我就爬取他在19年衡中的演讲视原创 2021-06-09 16:21:20 · 2577 阅读 · 4 评论 -
Python爬虫:和我一起学习scrapy(五)
前言大部分人的身上,有一种近乎无解的矛盾——想要养成早起的习惯,却一不小心刷手机到凌晨两点;看到一篇干货文章,第一反应是加收藏夹下次再看(收藏从未停止,学习从未开始。/ 收藏==学会);想要瘦身塑形,却在深夜破功:“吃饱了才有力气减肥”;看到一门不错的课程,却还是告诉自己有时间了再学…Spider Middleware的使用方法Spider Middleware是介入到Scrapy的Spider处理机制的钩子框架。当Downloader生成Response之后,Response会被发送给原创 2021-04-06 21:49:05 · 178 阅读 · 0 评论 -
Python爬虫:和我一起学习scrapy(四)
Downloader Middleware的工作流程Downloader Midderware即下载中间件,它是处于Scrapy的Request和Response之间的处理模块。我们先来看看它的架构,Scheduler从队列中拿出一个Request发送给Downloader执行下载。这个过程会经过Downloader MIddleware的处理。另外,当Downloader将Request下载完成的Response返回给Spider时会再次经过Downloader MIddleware处理,也就是说Do.原创 2021-03-30 19:58:39 · 209 阅读 · 0 评论 -
Python爬虫:和我一起学习scrapy(三)
Selector选择器的详细介绍在上一篇文章中为各位小伙伴简单的介绍了Selector,直接导入的方法就可以使用。这篇文章主要是Scrapy Shell和Xpath选择器为大家带来更加详细的使用方法。scrapy shell我们可以借助scrapy shell来模拟请求过程,然后把一些可以操作的变量传递回来,比如:resquest、response等。PS C:\Users\admin\Desktop> scrapy shell https://www.baidu.com --nolog[s原创 2021-03-25 20:30:10 · 362 阅读 · 0 评论 -
Python爬虫:和我一起学习scrapy(二)
我们先上一波总结,当我们抓取网页的时候,我们最常的任务就是从HTML中将数据提取出来,那我们就不得不学习数据提取库了。对于爬取信息的解析,我们之前已经介绍过了正则re、Xpath、BeautifulSoup和PyQuery。而Scrapy还给我们提供了自己的数据解析方法,即Selector(选择器)。Selector选择器是基于lxml来构建的,支持Xpath、CSS选择器以及正则表达式。功能全面。解析的速度与准确率都是极高的。Selector选择器是一个可以独立使用的模块。直接导入模块就可以实例化.原创 2021-03-23 21:16:34 · 169 阅读 · 0 评论 -
Python爬虫:和我一起学习scrapy(一)
scrapy框架介绍scrapy是由Python语言开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。scrapy最吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型的爬虫基类,比如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持scrapy框架的网址:https://scrapy.orgscrapy框架运行原理不知道大家是否还原创 2021-03-22 22:55:57 · 311 阅读 · 0 评论 -
啃书君教你爬取头条小姐姐
觉得上面的小姐姐漂亮的,可以举个爪子。今天就来教大家来爬取头条上的美女。但是,不要着急,在学爬虫之前,大家需要先学会分析Ajax请求。目录前言什么是AjaxAjax分析方法查看请求过滤请求实战分析Ajax爬取今日头条小姐姐准备工作抓取分析功能需求与实现获取json数据获取图片地址保存图片结果展示关于翻页最后结果最后前言有时候我们会用requests抓取页面的时候,得到的结果可能和浏览器中看到的不一样:在浏览器中可以看到正常显示的页面数据,但是使用requests得到的结果并没有。这是因为requ.原创 2021-03-05 16:20:03 · 603 阅读 · 0 评论 -
Python爬虫:这有美味的汤,你喝吗?
目录使用Beautiful Soup准备工作解析器基本用法节点选择器选择元素提取节点信息获取子节点关联选择方法选择器CSS选择器嵌套选择获取属性获取文本小结实战前言准备工作关于B站弹幕限制爬取内容需求分析获取弹幕API接口爬取弹幕功能实现具体代码最后使用Beautiful Soup在前面的文章中已经讲过了正则表达式的使用方法了,但是如果正则表达式出现问题,那么得到的结果就不是我们想要的内容。熟悉前端的朋友肯定知道,对于一个网页来说,都有一定的特殊结构和层级关系,而且很多节点都用id和class来区分。所原创 2021-01-07 15:00:08 · 440 阅读 · 0 评论 -
python爬虫:正则表达式学废了?XPath来救!
使用XPathXPath,全称XML Path Language,即XML路径语言,它是在XML语言中查找信息的语言。它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索。在上一篇文章中讲述了正则表达式的使用方法,正则表达式的难度还是比较大的,如果不花足够多的时间去做的话还是比较难的,所以今天就来分享比正则简单的内容,方便大家接下来的学习。XPath常用规则XPath的规则是非常丰富的,本篇文章无法一次性全部概括,只能为大家介绍几个常用的规则。表达式描述nodena原创 2021-01-05 10:31:55 · 218 阅读 · 2 评论 -
通过Python爬取当当网,学正则表达式
前言在上一篇文章中讲述了正则表达式的使用方法,既然讲了那不来点实战性的文章嘛?那肯定是不行的,所以这次我就是用正则表达式爬取当当网的TOP500的图书。准备工作工欲善其事,必先利其器。写代码也同样是如此,所以在开始之前请先安装好requestst、pandas库。如果没有安装,请先安装好。# 安装requestspip install requests# 安装pandaspip install pandas需求分析本次我们需要提取出当当网TOP500的图书名称、初版时间、价格和作者姓原创 2020-12-29 21:40:55 · 967 阅读 · 4 评论 -
Python爬虫:正则表达式?就这
前言当你点开文章的时候,我就知道这次的标题有点装逼了,哈哈,不过不要紧,还好我写的都是干货。正则表达式是处理字符串的强大工具,它有自己特定的语法结构,可以实现字符串的检索、替换、匹配验证。案例引入打开开源中国提供的正则表达式测试工具https://tool.oschina.net/regex/,输入带匹配的文本,然后选择常用的正则表达式,就可以得到相应的匹配结果。其实,这里就是使用的正则表达式匹配,也就是用一定的规则将特定的文本提取出来。对于电子邮件来说可以使用[\w!#%&'*+/原创 2020-12-29 21:39:36 · 324 阅读 · 0 评论 -
通过Python分析《大秦赋》,我知道了这些
前言对于《大秦赋》,相信大家都不会陌生,由延艺导演,张鲁一主演的历史古装剧。剧集讲述了秦始皇嬴政在吕不韦、李斯、王翦等的辅佐下平灭六国、一统天下,建立起中华历史上第一个大一统的中央集权国家的故事。 战国晚期,纷乱五百余年的华夏大地仍战火不息、 生灵涂炭。彼时六国势弱、秦国独强,天下统一之势渐显。巨商吕不韦携时在赵国为质的嬴异人逃归秦国,幼小的始 皇帝嬴政被弃留邯郸,屡遭生死劫难,也目睹战争带给百姓的痛苦与绝望,心中天下凝一之志由此而生。此后嬴政归秦,在咸阳政治漩涡中经历精神阵痛,蜕变成一个真正王者原创 2020-12-27 21:29:14 · 389 阅读 · 1 评论 -
python爬虫:Python-requests模块学习笔记总结
文章目录前言一、requests模块使用1.1 requests模块发送get请求1.2 response响应对象1.3 response.text与response.content的区别1.4 通过对response.content进行decode,来解决中文乱码1.5 response响应对象的其他常用的属性和方法二、requests模块发送请求2.1 发送带headers的请求2.1.1思考2.1.2 携带请求头发送请求的方法2.2 发送带参数的请求2.2.1 在url携带参数2.2.2 通过para原创 2020-12-14 00:50:37 · 1140 阅读 · 2 评论 -
Python爬虫:什么是Python爬虫?怎么样玩爬虫?
有理想,有抱负,懂得自律,相信在不久的将来你会成功的!打开微信搜索【孩子上学后】,关注这个不一样的程序员。本次专辑我打算出【Python爬虫】,从0到1带大家入门爬虫到精通爬虫,接下来会有更加精彩的内容。关注我,跟着我一起来学习爬虫吧!目录Python爬虫入门:什么是爬虫?爬虫特点概要爬虫的概念爬虫的作用爬虫的分类根据被爬网闸的数量不同,可以分为:根据是否以获取数据为目的,可以分为:根据URL地址和对应页面内容是否改变,数据增量爬虫可以分为:爬虫流程http以及https的概念和区别爬虫.原创 2020-11-27 16:41:20 · 350 阅读 · 0 评论 -
Python获取英雄联盟的皮肤原画:新手玩家们都懵了!(一)
本爬虫是为了经验交流,如果读者需要转载,请注明出处和链接希望:喜欢博主的读者,可以点个关注~,更多精彩内容请收藏本栏目,不定期添加干货。代码:如果你订阅了本专栏可以直接私信我,我可以发给你完整的代码。如果没有订阅,但是又想要获取源码的读者搞研究的读者,可以直接添加我的VX(weixin号码:Guprogram)目录前言夜太美,爬虫就没那么危险善于利用他人的UA爬虫过程分析网页获取每一位英雄的ID值分析原画网页结语前言学习py也有不少时间了,老是忘记写博客,我自己也是很无奈呀!作为会为代码而疯狂.原创 2020-10-09 02:25:31 · 636 阅读 · 0 评论 -
python模拟登录豆瓣
python 模拟登录豆瓣爬取影评需求分析功能分析功能实现登录豆瓣登录接口分析这个Session是我们常说的session吗批量爬取评论上一篇文章我们爬取了豆瓣的中的电视剧《隐秘的角落》电视剧的短评,在爬取的过程中也许你会发现,headers信息中的cookie信息是我登陆后设置进去的,那么也给了我一些思路,是否可以通过模拟登录豆瓣之后来保存cookie呢?说干就干!!此教程仅用于学习,不得商业获利!如有侵害任何公司利益请告知删除!cookie反爬虫是指服务器通过校验请求头中的cookie值来原创 2020-07-16 20:24:44 · 417 阅读 · 0 评论 -
Python爬虫之获取淘宝商品数据
爬取淘宝信息数据首先需要先导入webdriverfrom selenium import webdriverwebdriver支持主流的浏览器,比如说:谷歌浏览器、火狐浏览器、IE浏览器等等然后可以创建一个webdriver对象,通过这个对象就可以通过get方法请求网站driver = webdriver.Chrome() # 创建driver对象driver.get('https://www.baidu.com') # 请求百度接下来可以定义一个方法:search_product一、s原创 2020-05-24 18:55:07 · 9186 阅读 · 4 评论 -
Python爬虫之商情报网站的数据
简介:很多网站上,都会以表格的形式展示数据,而我们获取这种数据只需要通过几十行代码就可以搞定网页爬虫,实现高效办公之前有位朋友和我说需要迁移某站的数据,经过分析发现他网站的数据主要是以表格的形式保存,那这样就简单很多了。所以今天就写了关于爬取表格数据的爬虫小程序。知识点爬虫基本原理requests库的简单使用pandas库开发环境windows10pycharm2020.1获取网页信息URL地址:https://s.askci.com/stock/a/0...原创 2020-05-19 22:42:54 · 1598 阅读 · 1 评论 -
Python爬虫之好看视频
之前在工作中有点忙,所以就没有写文章。因为之前有写过爬取图片的文章 ,所以今天就想写一篇爬取视频的文章。首先第一步还是先要分析站,确定要爬取的网站链接:https://haokan.baidu.com/tab/gaoxiao爬取的视频为搞笑这个栏目的视频。接下来要做的就是网站数据包的抓取,谷歌浏览器的抓包工具为我们分类好了每一个网络数据包的类型。通过对该网站的分析可以得出网站是通过Ajax来局部刷新的,因为你不断往下拉的过程中,一个一个视频会跟着加载出来,所以,判断这是Ajax局原创 2020-05-17 16:54:59 · 3662 阅读 · 2 评论 -
Python爬虫之微信公众号(一)
之前有位朋友,听说是搞科研的,需要一些公众号的文章数据,特别是需要拿到含有关键字为“武汉“的公众号的文章。所以今天就写了一个爬虫爬取微信公众号的文章一、大多数的爬取思路现在,我们开始切入正题。我爬取公众号文章的方式和别人的方法可能不太一样,但是原理基本上是相通的。有些朋友可能是通过抓包的方式获取,有些朋友可能会通过搜狗微信获取,因为搜狗和微信有合作关系吧。二、个人爬取思路介绍现...原创 2020-05-08 13:26:40 · 2298 阅读 · 0 评论 -
获取广州历史天气情况
获取广州历史天气状况唠叨一下……我发现,最近一段时间没有更新文章,也没有出视频了。**“坚持”**这个词对任何人来说都很重要但却很难做到,就像“学习”一样。犹记得高三时,每天奋笔疾书,充满热情,那是对青春最好的诠释。也是为了不负青春,朝着梦想努力拼搏。但对于很多身在职场,或是大学校园的朋友来说,工作、学业的繁忙可能让你无暇顾及其他。也许大家觉得,文章有空就写,没空可以不写...原创 2020-04-19 18:58:52 · 893 阅读 · 0 评论