
Python爬虫入门
文章平均质量分 77
dyboy2017
博客地址已转移,请移步:https://blog.dyboy.cn
展开
-
Python爬虫实战三 | 蓝奏网盘抓取网盘链接信息
今天在使用蓝奏网盘的时候发现有一个文件夹加密分享,然后我就尝试了加密文件夹,但是文件夹下的文件还是可以直接通过访问该文件链接得到,所以对于文件夹加密是否显得有点鸡肋了呐?如此,我们便简单的使用Python爬虫来实现一下:1.抓取网盘链接+文件名2.作用:存为文本文件,当我们需要什么资料的时候或许就可以通过Ctrl+F快速搜索,从而得到我们想要的资源实现:原创 2017-09-15 14:12:57 · 11592 阅读 · 2 评论 -
用Python爬取陈奕迅新歌《我们》10万条评论的新发现
最近就有一部“怀旧”题材的电影,未播先火,那就是刘若英的处女作——《后来的我们》。青春,爱情,梦想,一直是“怀旧”题材的核心要素,虽然电影现在还未上映,但先行发布的主题曲《我们》,已经虐哭了不少人。在MV里,歌声清清浅浅,诉说着那些年关于爱情里的遗憾。“我最大的遗憾,就是你的遗憾,与我有关”,下面就一起来感受一下吧。这首歌是《后来的我们》中的主题曲,网易云音乐上线当天便席卷千万+播原创 2018-04-22 15:18:01 · 753 阅读 · 0 评论 -
第九课 Python模拟登陆与保持会话
一、了解与尝试对于刚入门的同学来说,可能还不清楚,怎么弄,不过相信在前8节课的描述中,大家还是掌握一二,并有所创造了好了废话不多说,下面看教程: 1.我们首先找到一个有会员登陆的网站,比如一个小网站,还有验证码“第一资源网” 可能有的同学就慌了,这是一个js加载的登录框,爬虫怎么抓取呐??? 不要急~2.打开F12,开发者工具抓包看看登陆的请求链接是什么 抓取的请求链接如下: 登陆请原创 2018-01-04 18:41:23 · 3212 阅读 · 2 评论 -
第八课 Python3 多线程学习-提升程序效率
今天不讲多的,就一张图,能看懂的就看吧,看不懂的再说。。。觉得挺简单的一个功能,会用就行适当的插入多线程,或让我们的程序更加健壮稳定。程序截图如果看不清楚,请访问原图:http://upload-images.jianshu.io/upload_images/6661013-7c09a55977207cc6.png?imageMogr2/auto-orient/原创 2017-09-18 17:12:04 · 1179 阅读 · 0 评论 -
第六课 Python新浪新闻爬虫最终整理总结
代码整理封装如图:6不6?Python简洁又强大!至此,教程圆满结束,还有什么不懂的或有疑问的问题,欢迎大家加我的QQ:1099718640顺便再送上完整代码,凑凑字数,哈哈~(其实推荐大家去下载Github上的内容,顺便给个小心心什么的)#第六课 封装整理#作者:DYBOY#时间:2017-09-06import requestsim原创 2017-09-06 15:39:11 · 1614 阅读 · 0 评论 -
第一课 Python爬虫初识与网络请求
Python爬虫学习第一课记录1.非结构化数据:如图的网页资料/文章,因此我们需要挖掘有价值的数据,那么这个时候我们需要通过ETL(Extract,Transformation,Loading)工具才能将数据转化为结构化数据之后,数据才可以的有效的利用。2.ETL:原始资料->ETL脚本->结构化数据食材->厨师->美食3.如原创 2017-09-06 14:20:50 · 1746 阅读 · 0 评论 -
第二课 Python爬虫网络请求request模块详解
1.发起请求:2.解决乱码:3.抓取指定区域内容:Get请求Request相对于urllib2更为简单,可以使用REAT操作(POST/GET/PU原创 2017-09-06 14:30:43 · 1572 阅读 · 0 评论 -
第三课 Python爬虫Beautifulsoup4模块的使用
Beautifulsoup作用:将网页(非结构化内容)转化成结构化内容.text取得bs对象的文字内容(去除HTML标签)现在令一个新的字符串:html sample ='Hello World!This is link1This is link2'将字符串转化为bs对象:soup = BeautifulSoup(原创 2017-09-06 14:41:04 · 1449 阅读 · 0 评论 -
第四课 Python爬虫简单爬取新浪新闻列表
新闻列表页网页结构:输出h2:res = requests.get('http://news.sina.com.cn/china/')res.encoding = 'utf-8'soup = BeautifulSoup(res.text,'html.parser')for news in soup.select('.new原创 2017-09-06 14:48:42 · 2099 阅读 · 0 评论 -
第五课 Python爬虫抓取新浪新闻的内容页
内容页结构:以这篇文章为例子:http://news.sina.com.cn/c/2017-09-05/doc-ifykpzey4568845.shtml因为简短,方便观看演示:GET请求:http://news.sina.com.cn/c/2017-09-05/doc-ifyk原创 2017-09-06 15:12:07 · 2406 阅读 · 0 评论 -
Python爬虫实战一 | 抓取取校花网的所有妹子
今天晚上顺带就实际的写写工具,我们刚学完Python的基础语法!抓点妹子带回家~ 总结一下之前的吧,我写了关于Python爬虫的六节课程,也就是六篇文章,文章有点简洁,但是很细节,如果还有不懂的请加我QQ:1099718640,或者留言,小东看到了一定会及时回复的哦!愿和各位志同道合的程序猴子一起畅谈人生!哈哈~ 今天晚上,刚开完班会。。。老实说,小东大一的成绩很不好,全班倒数原创 2017-09-06 23:22:11 · 9308 阅读 · 2 评论 -
Python爬虫实战二 | 抓取小说网完结小说
大家都知道,在小说网站看小说总是各种广告,想要下载小说然而却要么需要钱,要么需要会员,如此,我们不妨写一个小说爬虫,将网页上的小说内容章节全部抓取下来,整理成为一本完整的txt文件,这样岂不是一件很愉快的事情!第一只爬虫:第一只爬虫效果 第一只爬虫,在urlChange()函数处理网址变化,然而到了最后,小东发现,原来小说的每一章节不是按照序号顺次原创 2017-09-07 17:30:11 · 8013 阅读 · 0 评论 -
第七课 Python3 简单三步学会数据库操作
第一步:安装Pymysql因为mysqldb不支持python3.x,所以选择pymysql模块,首先我们来看看如何安装这个模块。1.下载pymysql:http://pan.lanzou.com/16749682.解压到桌面,然后使用CMD打开该文件夹;3.如图:安装pymysql模块4.如此基本就没问题了,注意的是你得原创 2017-09-15 16:41:52 · 1060 阅读 · 0 评论 -
自我介绍与博客规划-第一篇文章
自我介绍: 我是来自天朝下重庆大学的一名程序猿,或者叫我程序羊(因为我的名字叫东阳),哈哈,其实我自己也有博客,同时也运维着几个网站,但为啥还要来优快云呐?写下着第一篇文章的时候,正是我大二开学的时间,在老师讲课期间说起我们在学习的时候应当写写博客,记录一下自己开发或学习中遇到的问题,也是方便我们深入的理解,在未来的日子,坚持写下去,一定会有更多的收获!为此,今天开通了优快云...原创 2017-09-05 17:08:37 · 2432 阅读 · 1 评论