东木月
编程是为了更深刻的了解这个世界,或者作为自己的职业谋生存。 读书是为了让自己的灵魂得到升华,照亮自己的同时也指引他人。旅行见天地,读书明事理,工作合行知。
展开
-
使用selenium来获取数据集
使用selenium来获取数据集原创 2025-03-22 21:28:32 · 176 阅读 · 0 评论 -
如何通过selenium使用浏览器高效爬虫
1、获取浏览器驱动对象2、搜索关键字3、获取主窗口句柄4、切换窗口5、获取内容6、保存数据原创 2024-11-12 22:37:19 · 484 阅读 · 0 评论 -
使用selenium爬取二手车数据(图片、价格、参数)
1、确定爬取网页2、创建driver3、爬取数据4、保存成csv原创 2024-10-07 20:56:58 · 728 阅读 · 0 评论 -
如何使用selenium结合最新版chrome爬虫
如何使用selenium结合最新版chrome爬虫原创 2024-10-07 20:41:10 · 1374 阅读 · 0 评论 -
python使用随机请求头爬取数据
python 使用随机请求头反反爬虫原创 2022-06-11 23:55:37 · 359 阅读 · 0 评论 -
python用scrapy模拟用户登录
scrapy模拟登录注意:模拟登陆时,必须保证settings.py里的COOKIES_ENABLED(Cookies中间件) 处于开启状态 COOKIES_ENABLED = True或# COOKIES_ENABLED = False策略一:直接POST数据(比如需要登陆的账户信息) 只要是需要提供post数据的,就可以用这种方法。下面示例里post的数据是账户密...原创 2018-08-20 13:18:27 · 5249 阅读 · 3 评论 -
Python爬虫练习(requests模块)
Python爬虫练习(requests模块)一、使用正则表达式解析页面和提取数据1、爬取动态数据(js格式)爬取http://fund.eastmoney.com/fund.html流程:a.分析页面用浏览器打开链接,清空已加载的数据,点击下一页,可看到动态数据已被封装成js格式:var db = {...}b.获取urlc.获取响应...原创 2018-07-07 20:13:00 · 4412 阅读 · 3 评论 -
python爬虫scrapy框架
Scrapy 框架一、简介Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。Scrapy 使用了 Twisted(其主要对手是Tornado)多线程异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,...原创 2018-07-13 17:36:39 · 829 阅读 · 0 评论 -
python爬虫使用xpath解析页面和提取数据
XPath解析页面和提取数据一、简介XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。XPath基于XML的树状结构,有不同类型的节点,包括元素节点,属性节点和文本节点,提供在数据结构树中找寻节点的能力。二、什么是 XPath?XPath 使用路径表达式在 XML 文档中进行导航XPath 包含一个标准函数库XPat...原创 2018-07-07 15:05:40 · 16941 阅读 · 0 评论 -
pytho爬虫使用bs4 解析页面和提取数据
页面解析和数据提取一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值。内容一般分为两部分,非结构化的数据 和 结构化的数据。非结构化数据:先有数据,再有结构,结构化数据:先有结构、再有数据不同类型的数据,我需要采用不同的方式来处理。非结构化的数据处理文本、电话号码、邮箱地址用:正则表达式html文件用:正则表达式 / xpath/...原创 2018-07-06 19:42:10 · 3299 阅读 · 0 评论 -
python使用matplotlib画图,jieba分词、词云、selenuium、图片、音频、视频、文字识别、人脸识别
一、使用matplotlib画图使用matplotlib画柱形图import matplotlibfrom matplotlib import pyplot as plt #数据视图#配置字体matplotlib.rcParams["font.sans-serif"] = ["simhei"] # 黑体matplotlib.rcParams["font.family"] =..原创 2018-07-12 18:44:49 · 1526 阅读 · 0 评论 -
Python使用进程制作爬虫
1、进程1、进程的概念什么是进程—>CPU在同一时刻只能处理一个任务,只是因为cpu执行速度很快。 cpu在各个任务之间来回的进行切换。 进程的概念:正在进行的一个过程或者说一个任务,而负责执行任务的则是CPU,进程本身是 一个抽象的概念,即进程就是一个过程、一个任务。 CPU描述的是一个程序的执行过程. 进程之间是如何做到并发的:CPU在各个任务之间来回的进...原创 2018-07-08 15:54:35 · 518 阅读 · 0 评论 -
Python使用协程进行爬虫
1、协程协程,又称微线程,纤程。英文名Coroutine。协程是啥 ??首先我们得知道协程是啥?协程其实可以认为是比线程更小的执行单元。为啥说他是一个执行单元,因为他自带CPU上下文。这样只要在合适的时机,我们可以把一个协程切换到另一个协程,只要这个过程中保存或恢复 CPU上下文那么程序还是可以运行的。通俗的理解:在一个线程中的某个函数,可以在任何地方保存当前函数的一些临时变量...原创 2018-07-08 16:21:37 · 2284 阅读 · 0 评论 -
Python爬虫练习(多线程,进程,协程抓取网页)
一、多线程抓取网页流程:a.设置种子url b.获取区域列表 c.循环区域列表 d.创建线程获取页面数据e、启动线程import csvimport threadingimport timeimport requestsimport lxmlfrom lxml import etreeimport json# 递归锁rlock = threading.RLock(...原创 2018-07-08 20:02:02 · 1151 阅读 · 0 评论 -
python爬虫基础知识入门
Python爬虫大纲:1、获取响应 urllib(python3)/urllib2-urllib(python2)requests(urllib3) --get/post2、解析响应 HTML、json re/bs4/xpath(描述性语句)3、通用动态数据加载 selenium(自动化测试框架) + phantomJS(无界面浏览器)、...原创 2018-07-02 20:01:14 · 528 阅读 · 0 评论 -
Python爬虫之线程池
一、为什么要使用线程池?对于任务数量不断增加的程序,每有一个任务就生成一个线程,最终会导致线程数量的失控,例如,整站爬虫,假设初始只有一个链接a,那么,这个时候只启动一个线程,运行之后,得到这个链接对应页面上的b,c,d,,,等等新的链接,作为新任务,这个时候,就要为这些新的链接生成新的线程,线程数量暴涨。在之后的运行中,线程数量还会不停的增加,完全无法控制。所以,对于任务数量不端增加的程序,...原创 2018-07-09 19:05:25 · 892 阅读 · 0 评论 -
Python爬虫urllib模块
Python爬虫练习(urllib模块)1、获取百度首页数据流程:a.设置请求地址 c.设置请求时间 d.获取响应(对响应进行解码)'''获取百度首页'''import urllibfrom urllib import request # urllib.request = urllib2'''url, 请求地址data=None, get请求,当data不为...原创 2018-07-03 20:17:12 · 1252 阅读 · 0 评论 -
python爬虫自定义header头部
一、Handler处理器 和 自定义Openeropener是 urllib.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的)。 但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能,可以自定义打开器,流程如下:1、自定义处理器(hander)...原创 2018-07-04 20:49:35 · 1164 阅读 · 0 评论 -
python爬虫中的requests模块
Requests: 让 HTTP 服务人类一、简介虽然Python的标准库中 urllib 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更简洁方便。Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用:)Requests 继承了urlli...原创 2018-07-05 15:27:36 · 534 阅读 · 0 评论 -
python爬虫爬取策略
爬取策略在爬虫系统中,待抓取URL队列是很重要的一部分。待抓取URL队列中的URL以什么样的顺序排列也是一个很重要的问题,因为这涉及到先抓取那个页面,后抓取哪个页面。而决定这些URL排列顺序的方法,叫做抓取策略。下面重点介绍几种常见的抓取策略:一、深度优先遍历策略深度优先遍历策略是指网络爬虫会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接...原创 2018-07-05 20:01:08 · 2343 阅读 · 0 评论 -
Python爬虫之多线程
多线程在介绍Python中的线程之前,先明确一个问题,Python中的多线程是假的多线程! 为什么这么说,我们先明确一个概念,全局解释器锁(GIL)一、什么是GILPython代码的执行由Python虚拟机(解释器)来控制,同时只有一个线程在执行。对Python虚拟机的访问由全局解释器锁(GIL)来控制,正是这个锁能保证同时只有一个线程在运行。二、为什么要用GIL为了...原创 2018-07-08 15:36:12 · 5184 阅读 · 0 评论