Python3爬虫学习笔记
文章平均质量分 85
htsait4113
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
实战项目:基础爬虫 -- 爬取百度100词条
基础爬虫架构及运行流程基础爬虫框架主要包括五大模块,分别为爬虫调度器、URL管理器、HTML下载器、HTML解析器、数据存储器。功能分析如下:爬虫调度器主要负责统筹其他四个模块的协调工作。URL管理器负责管理URL链接,维护已经爬取的URL集合和未爬取的URL集合,提供获取新URL链接的接口。HTML下载器用于从URL管理器中获取未爬取的URL链接并下载HTML网页。HTML解析器用...转载 2018-11-20 23:51:44 · 5091 阅读 · 2 评论 -
【Python3 爬虫学习笔记】人脸识别及验证码图片破解 3
用OpenCV进行人脸识别要对特定图像进行识别,最关键的是要有识别对象的特征文件,OpenCV已内置了人脸识别特征文件,我们只需使用OpenCV的CascadeCoassifier类即可进行识别。创建CascadeClassifier对象的语法为:识别对象变量 = cv2.CascadeClassifier(识别文件路径)以conda方式安装的OpenCV人脸识别文件路径为C:\Prog...转载 2018-12-01 23:38:47 · 783 阅读 · 0 评论 -
【Python3 爬虫学习笔记】人脸识别及验证码图片破解 2
OpenCV基本绘图OpenCV提供了绘制直线、圆形、矩形等基本绘图功能。OpenCV画直线的语法为:cv2.line(画布, 起点, 终点, 颜色, 宽度)颜色:000到255的数值列表,如(120,80,255)。注意第一个值表示蓝色,第二个值表示绿色,第三个值表示红色。例如,画一条从起点(20,60)到终点(300,400)的直线,宽度为2,红色:cv2.line(imag...转载 2018-12-01 22:18:55 · 1088 阅读 · 0 评论 -
【Python3 爬虫学习笔记】人脸识别及验证码图片破解
用OpenCV读取和显示图形OpenCV(Open Souce Computer Vision Library)是一个跨平台的计算机视觉库。OpenCV由英特尔公司发起并参与开发,可在商业和研究领域中免费使用。OpenCV可用于开发实时的图像处理及计算机视觉程序,目前已广泛应用于人机互动、人脸识别、动作识别、运动跟踪等领域。要安装OpenCV,可在http://www.lfd.uci.edu/...转载 2018-12-01 21:15:35 · 1881 阅读 · 0 评论 -
【Python3 爬虫学习笔记】Pandas:强大的数据处理套件 2
DataFrame数据的修改及排序DataFrame数据的修改修改DataFrame数据的操作非常简单,只需要把上例中读取的数据项设定为指定值即可。例如,把陈聪明的数学成绩修改为91:df.ix["陈聪明"]["数学"] = 91或把陈聪明的所有成绩都改为80:df.ix["陈聪明", :] = 80DataFrame数据的排序Pandas提供了两种DataFram转载 2018-12-01 00:14:30 · 388 阅读 · 0 评论 -
【Python3 爬虫学习笔记】Pandas:强大的数据处理套件 1
创建DataFrame数据用Pandas套件进行数据处理,首先要导入Pandas套件。import pandas as pd创建DataFrame的语法为:数据变量 = pd.DataFrame(数据类型)“数据类型”可以是多种形式:第一种形式是以相同数量的列表数据作为键值的字典型数据。例如,简历一个包含4位学生、每人有5科成绩的DataFrame,数据变量名称为df:df = p...转载 2018-11-30 15:47:16 · 779 阅读 · 0 评论 -
【Python3 爬虫学习笔记】用Python进行Word文件操作
用Win32com组件操作Word文件Python语言可通过Win32com组件对Microsoft Office文件进行存取,而且Python已内置了Win32com组件,不需要另外安装。要用Win32com组件操作Microsoft Office文件,计算机必须已确保安装了Microsoft Office软件。实现新建文件并保存Win32com组件不需要安装,直接导入就可使用,下面我们...转载 2018-11-30 10:09:58 · 4891 阅读 · 0 评论 -
【Python3 爬虫学习笔记】爬取喜马拉雅《宝宝巴士-奇妙三字经》
最近发现,娃喜欢睡觉之前听《三字经》,又不想给他玩手机,遂起心将喜马拉雅FM上的音频下载下来的想法。在网上搜到了一篇文章,介绍了如何爬取:https://blog.youkuaiyun.com/majiexiong/article/details/81949388但是一试之下发现没有爬取成功,打开https://www.ximalaya.com/ertong/15161417/的源码,发现网页源码改了,原...转载 2018-11-26 23:31:58 · 798 阅读 · 0 评论 -
【Python3 爬虫学习笔记】绘制图形 4 -- Bokeh包 2
散点图除了绘制线形图的功能外,Bokeh还可用于绘制多种散点图,即仅显示各坐标点而不进行连接。绘制散点图的语法为:绘图区变量.circle(x坐标表, y坐标表, size=大小, color=颜色, alpha=透明度)大小:可以是一个数值,表示所有坐标点大小相同;也可以是数值列表,依次设置各坐标点大小。例如:p.circle(listx, listy, size=20) # 所...转载 2018-11-30 00:05:56 · 338 阅读 · 0 评论 -
【Python3 爬虫学习笔记】绘制图形 3 -- Bokeh包
Matplotlib在绘制各种科学图形方面功能强大,但占用的内存空间及计算资源也很大。如果绘制的图形不太复杂,小巧的Bokeh包就够用了。Bokeh的大小只有Matplotlib的五分之一,并且其所绘制的图形还是在网页中显示。用Bokeh绘制基本图形使用Bokeh绘图时,其大部分绘图功能是由bokeh.plotting子包中的figure和show模块完成的,所以我们一般至少要导入figure...转载 2018-11-29 23:02:06 · 983 阅读 · 0 评论 -
【Python3 爬虫学习笔记】绘制图形 2
爬取并绘制我国GDP1990~2016数据图绘制图形所需的数据源通常是不固定的,比如,有时我们会需要从网页抓取,也可能需从文件或数据库中获取。利用网页数据抓取技术,把我国1990年到2016年的GDP数据抓取出来,再利用Matplotlib进行绘图显示。经搜索发现,http://value500.com/M2GDP.html网页中有我们所需数据。通过浏览器的开发者工具,查看源码可以发现:年份...转载 2018-11-29 19:22:20 · 248 阅读 · 0 评论 -
【Python3 爬虫学习笔记】绘制图形
Python 除了擅长于数据抓取,把抓到的数据绘制成统计图形更是它的强项。Matplotlib 是Python在2D绘图领域使用最广泛的组件,通过它可以让用户轻松地将数据图形化,并且提供了多种输出格式。Matplotlib功能强大,尤其在绘制各种科学图形方面更有非凡表现。如果绘制的图形不是特别复杂,小巧的Bokeh组件就足以应付,它所需的资源大约只有Matplotlib的五分之一,却能绘出各种...转载 2018-11-29 15:13:09 · 583 阅读 · 0 评论 -
【Python3 爬虫学习笔记】用PySpider爬取虎嗅网并进行文章分析
–转自《1900-高级农民工》http://www.makcyun.top安装并运行pyspider安装pyspiderpip3 install pyspider运行pyspider并创建爬虫项目huxiupyspider all成功后,如下图所示:在浏览器中输入:http://localhost:5000或者http://127.0.0.1:5000点击Create,输入...转载 2018-11-23 14:37:02 · 838 阅读 · 0 评论 -
【Python 3 爬虫学习笔记】使用Python3 爬取猫眼《西虹市首富》
转自微信公众号《数据森麟》直接上代码:# 调用相关包import jsonimport randomimport requestsimport timeimport pandas as pdimport osfrom pyecharts import Bar, Geo, Line, Overlapimport jiebafrom scipy.misc import imrea...转载 2018-11-24 13:22:31 · 458 阅读 · 0 评论 -
[Python3 爬虫学习笔记]Selenium使用详解 3 -- 等待页面加载完成(Waits)
现在的大多数的Web应用程序是使用Ajax技术。当一个页面被加载到浏览器时,该页面内的元素可以在不同的时间点被加载。这使得定位元素变得困难,如果元素不再页面之中,会抛出ElementNotVisibleException异常。使用waits,我们可以解决这个问题。waits提供了一些操作之间的时间间隔-主要是定位元素或针对该元素的任何其他操作。Selenium WebDriver提供两种类型的w...转载 2018-11-21 18:45:05 · 3750 阅读 · 0 评论 -
[Python3 爬虫学习笔记]Selenium使用详解 2 -- 查找元素
在一个页面中有很多不同的策略可以定位一个元素。在项目中,你可以选择最很是的方法查找元素。Selenium提供了下列的方法:find_element_by_idfind_element_by_namefind_element_by_xpathfind_element_by_link_textfind_element_by_partial_link_textfind...转载 2018-11-21 17:10:42 · 547 阅读 · 0 评论 -
[Python3 爬虫学习笔记]Selenium使用详解 1 -- 打开一个页面
使用WebDriver打开一个链接,常规的方法是调用get方法:driver.get("http://www.google.com")WebDriver将等待,直到页面完全加载完毕(其实是等到onload方法执行完毕),然后返回继续执行脚本。值得注意的是,如果打开的页面使用了大量的Ajax加载,WebDriver可能不知道什么时候页面已经完全加载。这个时候,需要使用wait。与页面交互只...转载 2018-11-21 15:57:24 · 337 阅读 · 0 评论 -
爬取豆瓣《将夜》短评并绘制词云
《将夜》是根据猫腻小说改编,陈飞宇和宋伊人主演,最近在腾讯视频热播的电视剧,闲来无事,在学Python爬虫的时候想要爬取评论看看。几经努力,菜鸟水平终于能够爬取短评了。由于豆瓣的限制,即使在登录的状态,依然只能爬取500条评论,具体代码如下:# 调用相关包import jsonimport randomimport requestsimport timeimport pandas as...原创 2018-12-12 18:26:53 · 482 阅读 · 0 评论
分享