
python爬虫基础
文章平均质量分 84
「已注销」
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python爬虫基础:scrapy 框架—ltem和scrapy.Request
ltemItem是保存爬取数据的容器,它的使用方法和字典类似。不过,相比字典,Item提供了额外的保护机制,可以避免拼写错误或者定义字段错误。创建Item需要继承scrapy.Item类,并且定义类型为scrapy.Field的字段。在创建项目开始的时候Item文件是这样的。import scrapy class Tutorial1tem(scrapy.Item): #define the fields for your item here 7ike:#参照下面这个参数定义你的字段原创 2022-04-04 15:00:00 · 746 阅读 · 0 评论 -
Python爬虫基础:scrapy 框架结构及scrapy.Spider
scrapy 框架结构思考scrapy 为什么是框架而不是库?scrapy是如何工作的?项目结构在开始爬取之前,必须创建一个新的Scrapy项目。进入您打算存储代码的目录中,运行下列命令:注意:创建项目时,会在当前目录下新建爬虫项目的目录。这些文件分别是:scrapy.cfg:项目的配置文件quotes/:该项目的python模块。之后您将在此加入代码quotes/items.py:项目中的item文件quotes/middlewares.py:爬虫中间件、下载中间件(处理请原创 2022-04-02 16:36:47 · 1380 阅读 · 0 评论 -
Python爬虫基础:scrapy框架简介及第一个scrapy爬虫
scrapy框架简介scrapy是一个使用Python语言(基于Twisted框架)编写的开源网络爬虫框架,目前由scrapinghub Ltd维护。Scrapy简单易用、灵活易拓展、开发社区活跃,并且是跨平台的。在Linux、MaxOS以及windows平台都可以使用。网络爬虫网络爬虫是指在互联网上自动爬取网站内容信息的程序,也被称作网络蜘蛛或网络机器人。大型的爬虫程序被广泛应用于搜索引擎、数据挖掘等领域,个人用户或企业也可以利用爬虫收集对自身有价值的数据。一个网络爬虫程序的基本执行流程可以总结原创 2022-04-01 15:31:20 · 1062 阅读 · 0 评论 -
Python爬虫基础:验证码概述及打码平台
验证码概述什么是图片验证码?验证码(CAPTCHA)是"Completely Automated Public Turing test to tell Computers andHumans Apart”(全自动区分计算机和人类的图灵测试)的缩写,是一种区分用户是计算机还是人的公共全自动程序。验证码的作用防止恶意破解密码、刷票、论坛灌水、刷页。有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登录尝试,实际上使用验证码是现在很多网站通行的方式(比如招商银行的网上个人银行,百度社区)原创 2022-03-29 16:51:26 · 1372 阅读 · 0 评论 -
Python爬虫基础:多进程简介
什么是多任务?什么叫"多任务"呢?简单地说,就是操作系统可以同时运行多个任务。打个比方,你一边在用浏览器上网,一边在听MP3,一边在用Word赶作业,这就是多任务,至少同时v有3个任务正在运行。还有很多任务悄悄地在后台同时运行着,只是桌面上没有显示而已。在了解多任务具体实现方式之前,我们先来了解并发和并行的概念:并发:在一段时间内交替去执行多个任务。对于单核cpu处理多任务,操作系统轮流让各个任务交替执行,假如:软件1执行0.01秒,切换到软件2,软件2执行0.01秒,再切换到软件3,执行0.01原创 2022-03-21 20:38:46 · 223 阅读 · 0 评论 -
Python爬虫基础:selenium——浏览器对象的常用方法
浏览器对象的常用方法当我们通过selenium实例化一个浏览器对象时,可以针对此对象进行操作,常见的操作如下所示:driver.get(‘url’)根据url地址访问站点driver.page_source查看页面渲染之后的html数据driver.get_cookies()查看页面请求后生成的cookies,可以用此方法拿到加密的cookiesdriver.current_url查看当前页面的urldriver.maximize_window()最大化浏览器d原创 2022-03-18 21:40:13 · 960 阅读 · 0 评论 -
Python爬虫基础:初探selenium 之 元素提取
SeleniumSelenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,就像玩游戏用的按键精灵,可以按指定的命令自动操作。Selenium测试工具直接操控浏览器中,就像真正的用户在操作一样。Selenium可以根据的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生等。1. Selenium工作原理如图所示,通过Python来控制Selenium,然后让Selenium 控制浏览器,操纵浏览器,这样就实现了使用Python间接的操控浏览器原创 2022-03-16 16:06:24 · 2125 阅读 · 0 评论 -
Python爬虫基础:初探selenium——动态网页&静态网页
前言Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7,8,9,10,11),Mozilla Chrome,Safari,GoogleChrome,Opera等。动态网页&静态网页静态网页是指存放在服务器文件系统中实实在在的HTML文件。当用户在浏览器中输入页面的URL,然后回车,浏览器就会将对应的HTML文件下载、渲染并呈现在窗口中。早期的网站通常都是由静态页面制作的。1. 动态网页动态网页是原创 2022-03-14 21:05:47 · 1188 阅读 · 0 评论 -
Python爬虫基础讲解:数据持久化——json 及 CSV模块简介
json目的:将Python对象编码为JSON字符串,并将JSON字符串解码为Python对象。json模块提供了API,将内存中的Python对象转换为」JSON序列。JSON具有以多种语言(尤其是JavaScript)实现的优点。它在RESTAPI中 Web服务端和客户端之间的通信被广泛应用,同时对于应用程序间通信需求也很有用。下面演示如何将一个Python数据结构转换为JSON:1. 编码和解码Python 的默认原生类型(str, int,float,list,tuple和dict)。i原创 2022-03-08 20:35:30 · 832 阅读 · 0 评论 -
Python爬虫基础讲解:数据持久化——文件操作 及 Excel
计算机的文件,就是存储在某种长期储存设备上的一段数据长期存储设备包括:硬盘、U盘、移动硬盘、光盘…文本文件和二进制文件文本文件:可以使用文本编辑软件查看o本质上还是二进制文件例如: python的源程序二进制文件:保存的内容不是给人直接阅读的,而是提供给其他软件使用的。例如:图片文件、音频文件、视频文件等等二进制文件不能使用文本编辑软件查看1. 文件的基本操作操作文件的函数/方法在Python中要操作文件需要记住1个函数和3个方法open函数负责打开文件,并且返回文件对象rea原创 2022-03-07 19:45:19 · 369 阅读 · 0 评论 -
Python爬虫基础讲解之什么是XPath及其语法介绍
什么是XPathXPath (XML Path Language)是一门在 HTML\XML文档中查找信息的语言,可用来在HTML\XML文档中对元素和属性进行遍历。html和xml的区别xml的树结构<bookstore><book category="COOKING"> <title lang="en">Everyday Italian</title> <author>Giada De Laurentiis</auth原创 2022-03-06 15:15:00 · 474 阅读 · 0 评论 -
Python爬虫基础讲解之请求与响应~
请求1. 请求目标(URL)URL又叫作统一资源定位符,是用于完整地描述Internet上网页和其他资源的地址的一种方法。类似于windows的文件路径。网址的组成:http://:这个是协议,也就是HTTP超文本传输协议,也就是网页在网上传输的协议。mail:这个是服务器名,代表着是一个邮箱服务器,所以是mail。163.com:这个是域名,是用来定位网站的独一无二的名字。mail.163.com:这个是网站名,由服务器名+域名组成。/:这个是根目录,也就是说,通过网站名找到服务器,然后原创 2022-03-05 16:45:19 · 1203 阅读 · 0 评论 -
Python爬虫基础讲解:chrome开发者工具及网络面板
前言每个网站页面的实现方式各不相同,我们需要对每个网站都进行分析。那是否有一些通用的分析方法?我分享下自己爬取分析的“套路”。在某个网站上,分析页面以及抓取数据,我用得最多的工具是Chrome开发者工具。Chrome开发者工具是一套内置于Google Chrome 中的 Web 开发和调试工具,可用来对网站进行迭代、调试和分析。因为国内很多浏览器内核都是基于Chrome 内核,所以国产浏览器也带有这个功能。例如:UC浏览器、QQ浏览器、360浏览器等。接下来,我们来看看Chrome开发者工具一些比较牛原创 2022-03-03 15:45:20 · 959 阅读 · 1 评论 -
Python爬虫讲解(一):爬虫的分类【基础小知识】
前言网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页原创 2022-03-01 16:42:05 · 2191 阅读 · 0 评论