
爬虫相关
文章平均质量分 79
Yolanda Yan 9
Practice makes perfect.
展开
-
爬虫入门_9:增量式爬虫
概念:检测网站数据更新的情况,只会爬取网站最新更新出来的数据增量式爬取的核心是去重,去重方法如下:思路:通过redis的set集合实现去重的目的将爬取过程中产生的URL存储到redis的set数据结构中根据sadd(key,value) 的返回结果,判断此 URL 是否已爬取过1 表示没有爬取过,则发起请求; 0 表示已爬取过,则不进行请求示例:在redis中输入以下内容,可以得到下图# 向name(set集)中添加一个'jay'sadd name jaysadd n.原创 2022-02-20 10:26:14 · 1652 阅读 · 0 评论 -
爬虫入门_8:scrapy框架
scrapy简介框架:是一个集成了很多功能并且具有很强通用性的一个项目模板如何学习框架?专门学习框架封装的各种功能的详细用法scrapy:爬虫中封装好的 一个明星框架。功能:高性能的持久化存储,异步的数据下载,高性能的数据解析,分布式scrapy框架的基本使用环境的安装:mac or linux : pip install scrapywindows:安装wheel:pip install wheel下载twisted下载地址:https:/原创 2022-02-19 22:36:07 · 1322 阅读 · 2 评论 -
爬虫入门_7:动态加载数据处理及案例实战
selenium模块的基本使用简介selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题。selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到页面渲染之后的结果,可支持多种浏览器。问题:selenium模块和爬虫之间具有怎样的关联?便捷的获取网站中动态加载的数据便捷实现模拟登录selenium模块:基于浏览器自动化的一个模块。环境安装下载安装selenium:pip原创 2022-02-19 14:33:38 · 1599 阅读 · 0 评论 -
爬虫入门_6:高性能异步爬取及案例实战
基本知识目的:在爬虫中使用异步实现高性能的数据爬取操作异步爬取的方式:多线程,多进程(不建议):好处:可以为相关阻塞的操作单独开启线程或者进程,阻塞操作就可以异步执行弊端:无法无限制的开启多线程或者多进程线程池、进程池(适当的使用):好处:我们可以降低系统对进程或线程创建和销毁的频率,从而很好的降低系统的开销弊端:池中线程或进程的数据是有上限单线程+异步协程(推荐):event_loop:事件循环,相当于一个无限循环,我们可以把一些函数注册到这个时间循环上,当满足某些条件的时候,函数原创 2022-02-18 06:48:17 · 428 阅读 · 0 评论 -
爬虫入门_5:requests模块高级使用及案例实战
模拟登录模拟登录:爬取基于某些用户的用户信息。cookiecookie:用来让服务器端记录客户端的相关状态。手动处理:通过抓包工具获取cookie值,将该值封装到headers中(不建议)自动处理:cookie值的来源在哪里?模拟登录post请求后,由服务器端创建session会话对象:作用:可以进行请求的发送如果请求过程中产生了cookie,则该cookie会被自动存储/携带在该session对象中创建一个session对象:session=reque原创 2022-02-18 06:32:57 · 221 阅读 · 0 评论 -
爬虫入门_4:验证码识别及案例实战
反爬机制:验证码。需要识别验证码图片中的数据,用于模拟登陆操作。识别验证码的操作人工肉眼识别(不推荐)第三方自动识别(推荐)需要收费,识别率高地址云打码地址超级鹰地址本文通过OCR技术来对验证码图片数据识别(推荐)免费的,识别率一般实战:需求:识别古诗文网登陆页面中的验证码编码流程将验证码图片进行本地下载进行图片数据识别代码实现验证码识别封装在VerificationCode.py文件里,具体代码如下:import re # 用于正则f原创 2022-01-14 07:07:46 · 767 阅读 · 0 评论 -
爬虫入门_3:数据解析及案例实战
聚焦爬取:爬取页面中指定的页面内容编码流程:指定url发起请求获取响应数据数据解析持久化存储数据解析分类正则re.M: 多行匹配re.S:单行匹配bs4xpath(***)数据解析原理概述:解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储进行指定标签的定位标签或者标签对应的属性中存储的数据值进行提取(解析)1. 数据解析—正则表达式正则表达式在线测试地址:https://c.runoob.com/front-end/原创 2022-01-14 06:28:48 · 738 阅读 · 0 评论 -
爬虫入门_2:requests模块学习及案例实战
1. requets模块初始环境安装pip install requests使用流程指定urlUA伪装请求参数处理基于requests模块发起请求获取响应对象中的数据值持久化存储2. requests案例实战2.1 需求:爬取搜狗首页的页面数据# 导包import requests# step1:指定urlurl = 'https://www.sogou.com/'# step2:发起请求:使用get方法发起get请求,该方法会返回一个响应对象。参数u原创 2022-01-04 22:18:14 · 682 阅读 · 0 评论 -
爬虫入门_1:爬虫基础简介
由于最近这段时间在学习爬虫相关知识,所以将相关笔记整理出来,分享给大家~~~1.1 爬虫初始及深入爬虫,就是通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。1.1.1 爬虫在使用场景中的分类通用爬虫抓取系统种农药组成部分。抓取的是一整张页面数据聚焦爬虫是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容增量式爬虫检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据1.1.2 反爬&反反爬机制反爬机制:门户网站,可以通过指定相应的策略原创 2022-01-04 06:50:48 · 724 阅读 · 0 评论 -
高德地图地址和经纬度的转换
高德地图地址和经纬度的转换1. 地址转经纬度import requestsdef addressToLocation(address): """ 将地址转换为经纬度 :param address: 地址 :return: 经度和维度 """ # 在高德地图开发者平台(https://lbs.amap.com/)申请的key,需要替换为自己的k...原创 2020-03-08 10:33:34 · 3048 阅读 · 0 评论