
Python3爬虫学习笔记
文章平均质量分 85
htsait4113
这个作者很懒,什么都没留下…
展开
-
实战项目:基础爬虫 -- 爬取百度100词条
基础爬虫架构及运行流程 基础爬虫框架主要包括五大模块,分别为爬虫调度器、URL管理器、HTML下载器、HTML解析器、数据存储器。功能分析如下: 爬虫调度器主要负责统筹其他四个模块的协调工作。 URL管理器负责管理URL链接,维护已经爬取的URL集合和未爬取的URL集合,提供获取新URL链接的接口。 HTML下载器用于从URL管理器中获取未爬取的URL链接并下载HTML网页。 HTML解析器用...转载 2018-11-20 23:51:44 · 5020 阅读 · 2 评论 -
【Python3 爬虫学习笔记】人脸识别及验证码图片破解 3
用OpenCV进行人脸识别 要对特定图像进行识别,最关键的是要有识别对象的特征文件,OpenCV已内置了人脸识别特征文件,我们只需使用OpenCV的CascadeCoassifier类即可进行识别。 创建CascadeClassifier对象的语法为: 识别对象变量 = cv2.CascadeClassifier(识别文件路径) 以conda方式安装的OpenCV人脸识别文件路径为C:\Prog...转载 2018-12-01 23:38:47 · 740 阅读 · 0 评论 -
【Python3 爬虫学习笔记】人脸识别及验证码图片破解 2
OpenCV基本绘图 OpenCV提供了绘制直线、圆形、矩形等基本绘图功能。 OpenCV画直线的语法为: cv2.line(画布, 起点, 终点, 颜色, 宽度) 颜色:000到255的数值列表,如(120,80,255)。注意第一个值表示蓝色,第二个值表示绿色,第三个值表示红色。 例如,画一条从起点(20,60)到终点(300,400)的直线,宽度为2,红色: cv2.line(imag...转载 2018-12-01 22:18:55 · 1058 阅读 · 0 评论 -
【Python3 爬虫学习笔记】人脸识别及验证码图片破解
用OpenCV读取和显示图形 OpenCV(Open Souce Computer Vision Library)是一个跨平台的计算机视觉库。OpenCV由英特尔公司发起并参与开发,可在商业和研究领域中免费使用。OpenCV可用于开发实时的图像处理及计算机视觉程序,目前已广泛应用于人机互动、人脸识别、动作识别、运动跟踪等领域。 要安装OpenCV,可在http://www.lfd.uci.edu/...转载 2018-12-01 21:15:35 · 1822 阅读 · 0 评论 -
【Python3 爬虫学习笔记】Pandas:强大的数据处理套件 2
DataFrame数据的修改及排序 DataFrame数据的修改 修改DataFrame数据的操作非常简单,只需要把上例中读取的数据项设定为指定值即可。例如,把陈聪明的数学成绩修改为91: df.ix["陈聪明"]["数学"] = 91 或把陈聪明的所有成绩都改为80: df.ix["陈聪明", :] = 80 DataFrame数据的排序 Pandas提供了两种DataFram转载 2018-12-01 00:14:30 · 346 阅读 · 0 评论 -
【Python3 爬虫学习笔记】Pandas:强大的数据处理套件 1
创建DataFrame数据 用Pandas套件进行数据处理,首先要导入Pandas套件。 import pandas as pd 创建DataFrame的语法为: 数据变量 = pd.DataFrame(数据类型) “数据类型”可以是多种形式:第一种形式是以相同数量的列表数据作为键值的字典型数据。例如,简历一个包含4位学生、每人有5科成绩的DataFrame,数据变量名称为df: df = p...转载 2018-11-30 15:47:16 · 727 阅读 · 0 评论 -
【Python3 爬虫学习笔记】用Python进行Word文件操作
用Win32com组件操作Word文件 Python语言可通过Win32com组件对Microsoft Office文件进行存取,而且Python已内置了Win32com组件,不需要另外安装。 要用Win32com组件操作Microsoft Office文件,计算机必须已确保安装了Microsoft Office软件。 实现新建文件并保存 Win32com组件不需要安装,直接导入就可使用,下面我们...转载 2018-11-30 10:09:58 · 4825 阅读 · 0 评论 -
【Python3 爬虫学习笔记】爬取喜马拉雅《宝宝巴士-奇妙三字经》
最近发现,娃喜欢睡觉之前听《三字经》,又不想给他玩手机,遂起心将喜马拉雅FM上的音频下载下来的想法。 在网上搜到了一篇文章,介绍了如何爬取:https://blog.youkuaiyun.com/majiexiong/article/details/81949388 但是一试之下发现没有爬取成功,打开https://www.ximalaya.com/ertong/15161417/的源码,发现网页源码改了,原...转载 2018-11-26 23:31:58 · 757 阅读 · 0 评论 -
【Python3 爬虫学习笔记】绘制图形 4 -- Bokeh包 2
散点图 除了绘制线形图的功能外,Bokeh还可用于绘制多种散点图,即仅显示各坐标点而不进行连接。 绘制散点图的语法为: 绘图区变量.circle(x坐标表, y坐标表, size=大小, color=颜色, alpha=透明度) 大小:可以是一个数值,表示所有坐标点大小相同;也可以是数值列表,依次设置各坐标点大小。例如: p.circle(listx, listy, size=20) # 所...转载 2018-11-30 00:05:56 · 316 阅读 · 0 评论 -
【Python3 爬虫学习笔记】绘制图形 3 -- Bokeh包
Matplotlib在绘制各种科学图形方面功能强大,但占用的内存空间及计算资源也很大。如果绘制的图形不太复杂,小巧的Bokeh包就够用了。Bokeh的大小只有Matplotlib的五分之一,并且其所绘制的图形还是在网页中显示。 用Bokeh绘制基本图形 使用Bokeh绘图时,其大部分绘图功能是由bokeh.plotting子包中的figure和show模块完成的,所以我们一般至少要导入figure...转载 2018-11-29 23:02:06 · 943 阅读 · 0 评论 -
【Python3 爬虫学习笔记】绘制图形 2
爬取并绘制我国GDP1990~2016数据图 绘制图形所需的数据源通常是不固定的,比如,有时我们会需要从网页抓取,也可能需从文件或数据库中获取。利用网页数据抓取技术,把我国1990年到2016年的GDP数据抓取出来,再利用Matplotlib进行绘图显示。 经搜索发现,http://value500.com/M2GDP.html网页中有我们所需数据。 通过浏览器的开发者工具,查看源码可以发现:年份...转载 2018-11-29 19:22:20 · 210 阅读 · 0 评论 -
【Python3 爬虫学习笔记】绘制图形
Python 除了擅长于数据抓取,把抓到的数据绘制成统计图形更是它的强项。 Matplotlib 是Python在2D绘图领域使用最广泛的组件,通过它可以让用户轻松地将数据图形化,并且提供了多种输出格式。Matplotlib功能强大,尤其在绘制各种科学图形方面更有非凡表现。 如果绘制的图形不是特别复杂,小巧的Bokeh组件就足以应付,它所需的资源大约只有Matplotlib的五分之一,却能绘出各种...转载 2018-11-29 15:13:09 · 530 阅读 · 0 评论 -
【Python3 爬虫学习笔记】用PySpider爬取虎嗅网并进行文章分析
–转自《1900-高级农民工》http://www.makcyun.top 安装并运行pyspider 安装pyspider pip3 install pyspider 运行pyspider并创建爬虫项目huxiu pyspider all 成功后,如下图所示: 在浏览器中输入:http://localhost:5000或者http://127.0.0.1:5000 点击Create,输入...转载 2018-11-23 14:37:02 · 793 阅读 · 0 评论 -
【Python 3 爬虫学习笔记】使用Python3 爬取猫眼《西虹市首富》
转自微信公众号《数据森麟》 直接上代码: # 调用相关包 import json import random import requests import time import pandas as pd import os from pyecharts import Bar, Geo, Line, Overlap import jieba from scipy.misc import imrea...转载 2018-11-24 13:22:31 · 431 阅读 · 0 评论 -
[Python3 爬虫学习笔记]Selenium使用详解 3 -- 等待页面加载完成(Waits)
现在的大多数的Web应用程序是使用Ajax技术。当一个页面被加载到浏览器时,该页面内的元素可以在不同的时间点被加载。这使得定位元素变得困难,如果元素不再页面之中,会抛出ElementNotVisibleException异常。使用waits,我们可以解决这个问题。waits提供了一些操作之间的时间间隔-主要是定位元素或针对该元素的任何其他操作。 Selenium WebDriver提供两种类型的w...转载 2018-11-21 18:45:05 · 3682 阅读 · 0 评论 -
[Python3 爬虫学习笔记]Selenium使用详解 2 -- 查找元素
在一个页面中有很多不同的策略可以定位一个元素。在项目中,你可以选择最很是的方法查找元素。Selenium提供了下列的方法: find_element_by_id find_element_by_name find_element_by_xpath find_element_by_link_text find_element_by_partial_link_text find...转载 2018-11-21 17:10:42 · 508 阅读 · 0 评论 -
[Python3 爬虫学习笔记]Selenium使用详解 1 -- 打开一个页面
使用WebDriver打开一个链接,常规的方法是调用get方法: driver.get("http://www.google.com") WebDriver将等待,直到页面完全加载完毕(其实是等到onload方法执行完毕),然后返回继续执行脚本。值得注意的是,如果打开的页面使用了大量的Ajax加载,WebDriver可能不知道什么时候页面已经完全加载。这个时候,需要使用wait。 与页面交互 只...转载 2018-11-21 15:57:24 · 309 阅读 · 0 评论 -
爬取豆瓣《将夜》短评并绘制词云
《将夜》是根据猫腻小说改编,陈飞宇和宋伊人主演,最近在腾讯视频热播的电视剧,闲来无事,在学Python爬虫的时候想要爬取评论看看。几经努力,菜鸟水平终于能够爬取短评了。由于豆瓣的限制,即使在登录的状态,依然只能爬取500条评论,具体代码如下: # 调用相关包 import json import random import requests import time import pandas as...原创 2018-12-12 18:26:53 · 429 阅读 · 0 评论