
爬虫
文章平均质量分 68
黑马蓝汐
来和蓝汐一起学习吖!
展开
-
爬虫中selenium实现自动给csdn博主文章点收藏
目录前言(思考过程):一、需要注意的点1. 每次下滑让其加载的时候分两次下滑2. get网址前判断是否已经点过收藏了原创 2022-07-15 23:43:07 · 651 阅读 · 2 评论 -
爬虫基础知识点
1.爬虫的概念模拟浏览器,发送请求,获取响应。2.爬虫的作用数据采集软件测试抢票网站上的投票网络安全3.爬虫的分类爬虫根据数量:分为通用爬虫、聚焦爬虫聚焦爬虫根据是否获取数据:分为:功能性爬虫(不读取数据,只为实现某一功能)、数据增量爬虫(获取数据,用于后续分析)数据增量爬虫根据url与数据的关系:分为url与数据同时变化、url不变数据变化。4.爬虫的流程url或url_list(网址或网址列表)发请求,获取响应解析5.http、https原创 2021-11-11 21:11:43 · 2944 阅读 · 0 评论 -
爬虫中requests模块(一)
一、requests模块介绍1.requests模块的作用 发送http请求,获取响应数据。2.安装pip/pip3 install requests3.发送get请求导入requests模块 调用get方法,对目标url发送请求。例:# 调用requests模块import requests# 输入网址url = 'http://www.baidu.com'# 结果存入responseresponse = requests.get(...原创 2021-11-13 18:34:44 · 10121 阅读 · 0 评论 -
爬虫中requests模块发送post请求
思考:哪些地方我们会用到post请求?登录注册(post请求比get更安全,url地址中不会暴露用户的账号密码等信息) 需要传输大文本内容的时候(post请求对数据长度没有要求)1.1 requests发送post请求的方法(与get请求类似)response = requests.post(url, data) data参数接收一个字典 requests模块发送post请求函数的其他参数和发送get请求的参数完全一致1.2 post请求练习以汉译英百度在线翻译为例:地址:http原创 2021-11-14 16:53:45 · 5986 阅读 · 0 评论 -
爬虫中requests模块中post请求的数据来源总结
数据 方法 固定值 抓包比较不变值 输入值 抓包比较根据自身变化值 预设值-静态文件 需要提前从静态html文件中获取 预设值-发请求 需要对指定地址发送请求 在客户端生成的 分析js,模拟生成数据 ...原创 2021-11-14 17:33:10 · 1542 阅读 · 0 评论 -
爬虫中requests模块的session进行状态保持
一、requests.session简介requests模块中的Session类能够自动处理发送请求获取响应过程中产生的cookie,进而达到状态保持的目的。1.1 requests.session的作用以及应用场景requests.session的作用 自动处理cookie,即下一次的请求会带上前一次的cookie requests.session的应用场景 自动处理连续的多次请求过程中产生的cookie 1.2requests.session使用方法session实例在请.原创 2021-11-14 19:33:48 · 2003 阅读 · 4 评论 -
爬虫中requests模块中session的实战应用
本文以学习通为例,来实际应用session(没有学习通的小伙伴可以自己去找一个登录页面,但要尽量找一个表单数据(下面提到了)没有变化的来实验,因为简单)1.首先我们新建隐身窗口(无痕模式)进入学习通登录页面的网址:https://passport2.chaoxing.com/login?loginType=4&newversion=true&fid=129838&newversion=true&refer=http://ysdxaqjy.aqjy.chaoxing.c原创 2021-11-16 17:27:25 · 3077 阅读 · 2 评论 -
爬虫中数据提取概述
每日分享:我们曾经如此渴望命运的波澜,到最后才发现,人生最曼妙的风景竟是内心淡定与从容。我们曾经如此期盼外界的认可,到最后才知道,世界是自己的,与他人毫无关系。一、响应内容的分类结构化 json数据(高频出现) json模块 re模块 jsonpath模块 xml数据(低频出现) re模块 lxml模块 非结构化 html re模块 lxml模块 二、xml以及html的区别数据格式 描述 设计目标 XM原创 2021-11-19 22:38:54 · 1508 阅读 · 1 评论 -
爬虫中数据提取-jsonpath模块
每日分享:每个人的成长就是你的能力和你想要获取的东西不断匹配的过程目标了解jsonpath模块的使用场景 掌握jsonpath模块的使用一、jsonpath模块的使用场景如果有一个多层嵌套的复杂字典,想要根据key和下标来批量提取value,这是比较困难的。jsonpath模块可以很好地解决这个问题。jsonpath可以按照key对pathon字典进行批量数据提取二、jsonpath模块的使用2.1 jsonpath模块的安装在终端中输入:pip install原创 2021-11-20 10:32:22 · 2176 阅读 · 0 评论 -
爬虫数据提取-xpath
每日分享:在感情中最有价值的是,谁能唤醒你的感性,这个人就是合适的。谁能让你变成一个感性的人,谁就是合适的。目标了解lxml模块和xpath语法的关系 了解lxml模块的使用场景 了解lxml模块的安装 了解谷歌浏览器xpath helper插件的安装和使用 掌握xpath语法-基础节点选择语法 掌握xpath语法-节点修饰语法 掌握xpath语法-其他常用语法一、了解lxml模块和xpath语法对html或xml形式的文本提取特定的内容,就需要我们掌握lxml模块的使用和xp原创 2021-11-20 18:03:27 · 3354 阅读 · 1 评论 -
爬虫中lxml模块的使用
每日分享:做事情用“坚持”两个字,你的潜意识就会认为是一件困难的事情,然后你必须强迫自己去执行,这样是不对的,想要把任何一件事情做成功,一定要找到享受的感觉,以“享受”的心态去执行,你的潜意识就会认为这是一件容易的事情。一、爬虫对HTML提取的内容提取标签中的文本内容 提取标签中的属性的值 比如,提取a标签中href属性的值,获取url,进而继续发起请求 二、lxml模块的使用1. 导入lxml的etree库from lxml import etree2. 利用etree原创 2021-11-21 12:52:39 · 2366 阅读 · 0 评论 -
爬虫中数据提取-百度贴吧
目标:提取贴吧中每个帖子的标题和链接(内有自动翻页)以下是爬取数据的源码:import requestsfrom lxml import etreeclass TieBa(object): def __init__(self, name): self.url = 'https://tieba.baidu.com/f?kw={}&ie=utf-8&pn=0'.format(name) self.headers = {原创 2021-11-21 19:27:01 · 1803 阅读 · 0 评论 -
爬虫中lxml模块-tostring的用法
etree.tostring的使用原创 2021-11-21 19:42:06 · 1994 阅读 · 2 评论 -
爬虫中selenium的介绍、安装及使用
了解selenium的工作原理了解chromedriver的安装掌握标签对象click点击以及send_keys输入原创 2021-11-22 17:02:02 · 2654 阅读 · 0 评论 -
爬虫中教你如何爬取自己喜欢博主所写文章标题及网址
每日分享:怎么判断一个人是否合适呢?我觉得,一个合适的人会让你看到和得到全世界,而一个不合适的人会让你失去全世界博主页面例如下:1. 在该页面抓包,并找到如下包:2. 复制它的网址url,观察每一页的网址,发现url的前面都一样,就最后的数字不同;并复制user-agent,请求为get请求。3. 找到网页中的a标签(包括title和link),方便抓取标题和链接:注意:本来应该40个结果,而text()之后有80个(如下图):(所以爬虫代码中列表索引为1,(0没有内..原创 2021-11-23 00:36:06 · 2978 阅读 · 6 评论 -
爬虫中selenium的其他使用方法
每日分享:我知道你最近很累,是那种看不见的身体上和精神上的疲惫感,但是,请你一定要坚持下去,就算无人问津也好,技不如人也罢,千万不要让烦躁和焦虑,毁了你本就不多的热情和定力,别贪心,我们不可能什么都有,也别灰心,我们不可能什么也没有。掌握selenium控制标签页的切换 掌握selenium控制iframe的切换 掌握利用selenium获取cookie的方法 掌握手动实现页面等待 掌握selenium控制浏览器执行js代码的方法一、selenium标签页的切换当selenium控制原创 2021-11-24 22:56:55 · 2066 阅读 · 0 评论 -
爬虫中selenium的其他使用方法(二)
每日分享:你一定要狠下心来努力,努力变成一个很厉害的人;身材不好就去锻炼,没钱就努力去赚,没有必要让其他人知道计划,努力让自己变得很厉害,厉害到有天你可以随时离开令你不舒服的圈子,你要用选择和努力惊艳时光,而不是去抱怨生活。掌握selenium开启无界面模式 了解selenium使用代理ip 了解selenium替换user-agent一、selenium开启无界面模式绝大多数服务器是没有界面的,selenium控制谷歌浏览器也存在无界面模式(又称无头模式)开启无界面模式的方法 实例原创 2021-11-25 13:52:43 · 1971 阅读 · 0 评论 -
爬虫中使用selenium实现对斗鱼直播的各个房间标题、主播id,直播内容类型和热度信息的爬取
每日分享:千万不要因为别人的否定就开始自我否定,人生本来就是一个主观的过程,别人是否喜欢你,其实是对方世界的事,所以面对别人的不喜欢,不要自卑不要刻意讨好,你要专注的做自己思路分析:url(网页的url) 创建driver对象 发送get请求 parse data(分析处理数据) save data(保存数据) 翻页在一个循环中反复执行4、5、6操作,如果到最后一页则跳出循环。再说一些我写代码遇到的一些问题:用xpath可以找到你想找的元素,但如果要对其进行点击操作,需要先下原创 2021-11-26 01:06:48 · 2951 阅读 · 1 评论 -
爬虫中常见的反爬手段和解决方法
了解反爬的三个方向 了解常见基于身份识别进行反爬 了解常见基于爬虫行为进行反爬 了解常见基于数据加密进行反爬一、反爬的三个方向基于身份识别进行反爬 基于爬虫行为进行反爬 基于数据加密进行反爬二、常见基于身份识别进行反爬1. 通过headers字段来反爬headers中有很多字段,这些字段都有可能会被对方服务器拿过来判断是否为爬虫1.1 通过headers中的user-agent字段进行反爬反爬原理:爬虫默认情况下没有user-agent,而是使用模块默认设置 解决..原创 2021-11-27 17:44:13 · 10280 阅读 · 0 评论 -
爬虫中tesseract的安装及环境配置-验证码的处理
目标:了解验证码的相关知识 掌握图片识别引擎的使用 了解常见的打码平台 掌握通过打码平台处理验证码的方法一、图片验证码1.1 什么是图片验证码验证码是“全自动区分计算机和人类的图灵测试”的缩写,是一种区分用户是计算机还是人的公共全自动程序1.2 验证码的作用防止恶意破解密码、刷票、论坛灌水、刷页1.3 图片验证码在爬虫中的使用场景注册 登录 频繁发送请求时,服务器弹出验证码进行验证1.4 图片验证码的处理方案手动输入:这种方法仅限于登录一次就可持续使用的情况 图像原创 2021-11-28 19:44:54 · 2030 阅读 · 1 评论 -
爬虫中chrome浏览器使用方法介绍
每日分享:从现在开始,你要去争取属于你的一切,格局、身材、思维、胆识、人脉、能力以及成熟和自信,要有野心,不负众望。你要知道,有钱能治愈一切自卑,光善良没有用,你得优秀。藏好软弱,世界大雨滂沱,万物苟且而活,无人会为你背负更多,除了坚强没有退路!了解新建无痕窗口的目的 了解chrome中network的使用 了解寻找登录接口的方法一、新建无痕窗口浏览器中直接打开网站,会自动带上之前网站保存的cookie,但在爬虫中首次获取页面是没有携带cookie的,这种情况就要用到无痕窗口原创 2021-11-29 12:12:50 · 4305 阅读 · 0 评论 -
爬虫中js的解析
每日分享:做人要狠任何关系,合得来就合,合不来就散,没有什么大不了的,理解多了,迁就多了,顾忌多了,痛苦自然就多了,完全没这个必要。别说我狠,以前我比谁都善良,可他们都把我当傻子。你怕的越多,欺负你的人就越多;什么都不怕了,反倒没人敢欺负你,甚至讨好你。现实教导我,好心没好报,该狠就得狠,人善被人欺,马善被人骑。别问我为什么,生活告诉我的。了解定位js的方法 js2py简介一、确定js的位置url地址中有表单数据(里面有一些参数),这些参数部分是由js生成的,想要获取这些参数的原创 2021-11-29 16:59:44 · 2423 阅读 · 4 评论 -
爬虫模拟对“有道在线翻译”发送请求(请求中的数据含需分析js来解出变化数据)
不会js也可以解出来!!!分析构建data数据编写代码原创 2021-12-05 23:50:26 · 2668 阅读 · 4 评论 -
scrapy的概念和流程
了解scrapy的概念了解scrapy框架的作用掌握scrapy框架的运行流程掌握scrapy中每个模块的作用原创 2021-12-06 22:00:07 · 1657 阅读 · 0 评论 -
scrapy的安装及入门使用
目标:掌握 scrapy的安装应用 创建scrapy的项目应用 创建scrapy爬虫应用 运行scrapy爬虫应用 scrapy定位以及提取数据或属性的方法掌握 response响应对象的常用属性原创 2021-12-08 00:43:55 · 5326 阅读 · 0 评论 -
爬虫中scrapy数据建模与请求
应用 在scrapy项目中进行建模以及实例解释原创 2021-12-10 19:44:28 · 2005 阅读 · 0 评论 -
爬虫中scrapy.Request的更多参数
scrapy.Request参数介绍及meta参数说明原创 2021-12-12 16:55:17 · 7765 阅读 · 0 评论 -
爬虫中scrapy模拟登录
目标:应用 请求对象cookies参数的使用了解 start_requests函数的作用应用 构造并发送post请求原创 2021-12-13 11:28:33 · 3541 阅读 · 0 评论 -
爬虫中scrapy管道的使用
一、pipeline中常用的方法二、管道的使用三、为什么settings中能够(需要)开启多个管道四、pipeline使用注意点原创 2021-12-13 16:10:27 · 3870 阅读 · 3 评论