
python爬虫实战及代码讲解
文章平均质量分 89
主要使用python3进行爬虫实战,
爬取一些电影,图片,区域码等
Carl_奕然
全网最逗比的技术博主之一,文章全网阅读量破千万;
荣获优快云、阿里云、51CTO、华为云等多社区专家荣誉,知名企业培训讲师&签约作者;
企业特邀作者和技术测评官,曾获多项国内外主流产品评测奖项;
主张:把博文写成段子,以撩天(妹)方式学习知识;
现就职于世界Top 500知名公司,曾混迹于各大名企;
专注于:AI(机器学习/机器视觉等),大数据,测试开发,性能(传统压测、全链路压测),面试培训及职业规划。
展开
-
Python3,爬虫有多简单,一个库,一行代码,就OK, 你确定不来试试?
如果早知道这个库, 我何必写爬虫框架呢。原创 2022-11-03 05:00:00 · 9424 阅读 · 6 评论 -
Python3,为了“娑娜“,我花费3分钟把lol所有的英雄都下载了。
下载英雄联盟所有人物图片,竟然只花费2分钟。原创 2022-01-30 00:45:00 · 13032 阅读 · 7 评论 -
Python3,3行代码,自动为脚本生成命令行,我默默的收藏了。
fire模块,不需要修改代码,直接在执行脚本命令行,输入需要传入参数,执行起来,非常方便。原创 2022-01-28 01:45:00 · 7182 阅读 · 1 评论 -
Python3:我只用1行代码就下载全网视频,我被我的才华和颜值征服了!!
you-get库使用1、引言2、代码实战2.1 you-get介绍2.2 you-get安装2.3 you-get下载视频2.3.1 指定存储和重命名2.3.2 查看视频信息2.3.3 选择需要下载清晰度和格式2.4 you-get下载图片1、引言最近加班有点多,所以小鱼也就没有什么精力去整理博文了。现在的状态,就好比坐船—>晕乎。白天保温杯里泡枸杞;晚上三个咖啡敢睡神。小屌丝:呦呵,写的还挺押韵。小鱼:那必须的,最近这段时间整的我,都没时间看电影了。小屌丝:看电影??? 你是想多了原创 2021-09-11 23:11:40 · 6198 阅读 · 23 评论 -
Python3,selenium动态下载某库PPT文档,省下的钱可以撸串了!!!
selenium破解动态码,爬取百度文库文档1、引言2、代码实战2.1 思路分析2.2 页面分析2.3 代码展示2.4 代码解析3、总结1、引言小鱼:你看啥嘞,把显示屏亮度调的这么暗???小屌丝:这… 没有你想的那样,我这是再学习算法知识呢。小鱼:你不学习算命了,改行学习算法了?小屌丝:正儿八经的,能不能帮我把这个文档给down下来(露出猥琐的表情…)小鱼:这个…理论上是不行的,因为我们要尊重对方嘛。小屌丝:你要是把文档给down下来,请你吃撸串小鱼:我这么注重养生的人,不撸串。小屌丝:我原创 2021-09-01 09:50:51 · 7839 阅读 · 0 评论 -
Python3,20行代码,通过微信电脑版爬取朋友圈数据,老板再也抓不到我上班看手机了!!!
爬取微信电脑版朋友圈数据1、引言2、桌面图形界面工具介绍2.1 PyAutoGUI2.2 PyWinAuto3、代码实战1、引言小屌丝:鱼哥,忙吗??小鱼:忙!!小屌丝:想问你件事。小鱼:在忙,没时间!!小屌丝:关于妹子的事~ ~小鱼:不忙,妹子被欺负了?妹子下班晚不好打车?妹子还没吃夜宵???小屌丝:我擦… 你真的是见色起意。小鱼:没有的事,我这么正儿八经的人,怎么会呢。。。小屌丝:正儿八经是真的, 但是人不人的,就不知道了。。。小鱼:不扯,妹子咋的了,我这着急担心着呢…小屌丝:原创 2021-08-20 10:16:43 · 20571 阅读 · 37 评论 -
博文汇总:Python开发,爬虫,数据分析,自动化测试开发,性能/并发实战,这一篇就足够了。
博文地址汇总1、Python开发系列1.1 Python开发实战1.2 Python数据分析1.3 Python爬虫实战2、测试开发系列2.1 性能实战系列2.2 接口并发系列2.3 自动化测试开发系列2.3.1 自动化框架2.3.2 APP自动化2.3.3 WebUI自动化2.3.4 接口自动化2.4 测试开发理论知识2.5 避坑总结系列3、 数据库系列3.1 MySQL用法及优化4、安全系列5、经典面试系列因为小鱼我一直都比较喜欢定期汇总整理。所以,这次,我也是把这几年,写的博文都汇总了一下,只需原创 2021-07-01 16:28:05 · 1202 阅读 · 0 评论 -
Python3,网站搭建之数据库表设计及数据存储!文末的彩蛋,我酸了~
搭建自己的网站,是作为一个码农成功标志之一,那其他的成功标志能就有,左手搂着白富美,右手撸着小烧烤,脚底踩着桑塔纳…嗯数据库表设计及存储数据爬取数据创建数据库创建数据库表链接数据库表数据存储彩蛋爬取数据有的小朋友会说,鱼叔,你这不是数据库表设计吗,怎么还送套餐是咋的?哈哈~买二送一…我们爬取数据,是为了把数据直接存储到数据库中,这样就省下来造数据的过程~我们今天爬取的内容,是这个网站url = https://arxiv.org/list/cs/recent这里汇集了外国各路大佬的大神原创 2020-08-26 08:55:03 · 19381 阅读 · 0 评论 -
Python3,多线程爬完B站UP主的视频弹幕及评论,我飘了~ ~ ~
利用线程爬取B站Up主弹幕及评论爬取视频弹幕信息爬取视频评论信息整合代码,线程提速~爬取视频弹幕信息爬取视频的弹幕信息,同样要借助于我们的接口工具,这里我们使用Charles,获取到的弹幕的url地址弹幕urlhttps://api.bilibili.com/x/v1/dm/list.so?oid={cid}视频urlhttps://api.bilibili.com/x/player/pagelist?aid={aid}&jsonp=jsonp至于怎么获取,我想大佬们都应该会的~原创 2020-08-24 15:39:32 · 20223 阅读 · 0 评论 -
Pyhotn3,爬取B站up主的信息!
今天搞一下,B站UP主前100名的数据信息~不要多想,不要多问,纯粹为了技术,不为数据~ 说我的都信了!!接下来,老规矩,上代码,看看怎么实现爬取B站up主的信息:# -*- coding:utf-8 -*-"""@ auth : carl_DJ@ time : 2020-8-21"""import requestsimport osimport jsonimport traceback#存放数据的根目录dir_path = os.path.join('up_100')原创 2020-08-21 10:00:01 · 7183 阅读 · 0 评论 -
Python3,爬虫的HTTP Error、URL Error及混合使用
爬虫常出现的两种errorURL ErrorHTTP ErrorHTTP Error 和URL Error 混合使用URL Errorurl error 很常见的,就是url地址不正确,或者失效我们来看看 代码是怎么实现的# -*- coding: utf-8 -*-"""@ auth : carl_DJ@ time : 2020-8-20"""from urllib import requestfrom urllib import error#定义一个不存在的url 地址url原创 2020-08-20 17:24:53 · 9827 阅读 · 0 评论 -
心情不美丽,爬了一些美图,独自欣赏!
小屌丝:鱼哥,咋了, 心情不美丽?小鱼:嗯,小屌丝:晚上撸串去??小鱼:不小屌丝:蹦迪??小鱼:不小屌丝:喝酒??小鱼:不小屌丝:猎艳??小鱼:… !!于是乎~~ 一段代码上来, 某网站的美女图片被下载下来!直接上代码#coding = utf-8"""@ auth : carl_DJ@ time : 2020-7-22"""import urllib.requestimport os def url_open(url): '''打开url''' req原创 2020-07-22 18:04:08 · 4630 阅读 · 0 评论 -
直接爬取个省市区的行政代码编号
今天的工作内容,需要获取某省级所有的行政区域编码,由于数据量太多,又懒得逐条整理,索性花费一点时间,写了一个爬虫。由于又懒得定位某省的,索性全国的编码都获取下来,至于剩下的查看某省份的信息,那就交给其他同事好了。再懒,也得说一下代码的结构,这是乌龟的屁股(规定),O(∩_∩)O~一、爬取的内容以csv文件存储,二、爬取的层数: 1层:爬取省份的信息 2层:爬取市的信息...原创 2020-04-29 11:38:56 · 4694 阅读 · 0 评论 -
Python3,多线程爬取某瓣小电影~ ~
python3 爬取豆瓣电影直接爬取豆瓣使用线程池爬取豆瓣由于今年的疫情原因,我们不能到电影院消费,就无法体验右手牵女友,左手牵女友闺蜜的乐趣。但是,即使在家里,也得撒一波…直接爬取豆瓣以上说的都不是重点,重点是,我们要看看怎么爬…别想歪了,我们是爬取网站的电影,不是爬山哈 !!先看一下豆瓣网,每页显示的电影数量这里直接上代码,我们不用线程池,看看,10页电影图片,需要多少时间# -*- coding: utf-8 -*-"""@ auth : carl_DJ@ time : 202原创 2020-08-14 09:22:28 · 5394 阅读 · 0 评论