
爬虫
文章平均质量分 61
程言一
我很穷,所以不能买太便宜的东西。
展开
-
day9-scrapy框架
目录什么是 scrap?scrap框架的基本使用什么是 scrap?爬虫中封装好的一个明星框架。功能:高性能的持久化存储,异步的数据下载,高性能的数据解析,分布式scrap框架的基本使用环境的安装mac or Linux: pip install scrapwindowspip install wheel下载twisted:下載地址为http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted安装twisted:pip install Tw原创 2021-04-05 23:46:42 · 230 阅读 · 0 评论 -
day7-使用selenium配合进行爬虫
一、实现无头浏览和规避检查是否使用seleniumfrom selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsfrom selenium.webdriver import ChromeOptionsimport time#实现无可视化chrome_options = Options()chrome_options.add_argument('--headless')chrome_opt原创 2021-03-17 23:30:11 · 219 阅读 · 1 评论 -
day8-使用selenium实现自动登录12306
一、前期准备需要借助的资源1、需要借助第三方的验证码识别工具进行识别,此处使用超级鹰做演示(http://www.chaojiying.com/)2、注册超级鹰,购买积分,生成软件id思路整理1、使用selenium打开登录界面2、使用selenium进行截图3、使用超级鹰获取验证码的坐标信息4、使用selenium进行自动登录二、代码如下from selenium import webdriverfrom PIL import Imagefrom selenium.webdr原创 2021-03-18 23:27:35 · 189 阅读 · 0 评论 -
day6--高性能的异步爬虫
目的在爬虫中使用异步实现高性能的数据爬取操作异步爬虫的方法多线程,多进程(不建议)好处:可以为相关阻塞的操作单独开启线程或者进程,阻塞操作就可以异步执行弊端:无法无限制的开启多线程或者多进程线程池,进程池(适当使用)好处:可以降低系统对进程或者线程创建和销毁的一个频率,从而很好的降低系统的开销弊端:池中线程或者进程的数量是有上限。实例:爬出梨视频数据from multiprocessing import Poolimport requestsfrom lxml i原创 2021-03-16 22:24:57 · 179 阅读 · 1 评论 -
day5-协程
目录一、什么是协程二、协程的意义三、异步编程一、什么是协程协程(coroutine),也可以被称为微线程,是一种用户态内的上下文切换技术,简而言之,其实就是通过一个线程实现代码块相互执行,例如:def func1(): print(1) ... print(2)def func2(): print(3) ... print(4)func1()func2()实现协程的几种方法greenlet 早起模块yield 关键字asyncio 装饰器(py3.4)async原创 2021-03-16 22:18:05 · 311 阅读 · 2 评论 -
day4--使用cookie访问和代理
需求:爬取人人网当前用户的相关的用户信息(个人主页中显示的用户信息)http/https协议特性:无状态。没有请求到对应页面数据的原因:发起的第二次基于个人主页页面请求的时候,服务器端并不知道该此请求是基于登录状态下的请求cookie:用来让服务器端记录客户端的相关状态。手动处理:通过抓包工具获取 cookie值,将该值封装到 headers中。(不建议)自动处理:cookie值的来源是哪里?模拟登录post请求后,由服务器端创建session会话对象:作用:..原创 2021-03-14 12:30:49 · 217 阅读 · 0 评论 -
day3--数据解析
目录聚焦爬虫:爬取页面中指定的页面内容聚焦爬虫:爬取页面中指定的页面内容编码流程:指定urL发起请求获取响应数据一数据解析持久化存储数据解析分类正则bs4xpath (ok)数据解析原理概述:解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储1、进行指定标签的定位2、·标签或者标签对应的属性中存储的数据值进行提取(解析)...原创 2021-03-11 23:27:09 · 134 阅读 · 0 评论 -
day2-requests模块基础
目录requests模块实战编码:实战巩固requests模块python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高作用:模拟浏览器发请求。如何使用:( requests模块的编码流程)指定urL发起请求获取响应数据持久化存储环境安装:pip install requests实战编码:需求:爬取搜狗首页的页面数据import requestsdef get_sogou(): #step1 指定URL url = 'https原创 2021-03-09 22:20:02 · 128 阅读 · 0 评论 -
day1-爬虫的基础简介
目录什么是爬虫:爬虫的价值:爬虫究竟是合法还是违法的?爬虫带来的风险可以体现在如下2方面:如何在使用编写爬虫的过程中避免进入局子的厄运呢?爬虫在使用场景中的分类反爬机制反反爬策路robots.txt协议:http协议什么是爬虫:通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。爬虫的价值:实际应用就业爬虫究竟是合法还是违法的?在法律中是不被禁止具有违法风险善意爬虫 恶意爬虫爬虫带来的风险可以体现在如下2方面:爬虫干扰了被访问网站的正常运营爬虫抓取了收到法律原创 2021-03-07 21:24:39 · 183 阅读 · 0 评论 -
百度爬取图片
import requestsimport redef getDatas(keyword, pages): """ :param keyword: 要爬取的值 :param pages: 要爬取的页数,每一页的数量是30条 :return: url的列表 """ params = [] for i in range(3...原创 2020-03-17 20:29:42 · 293 阅读 · 0 评论