- 博客(195)
- 收藏
- 关注
转载 centos下 安装python相关
centos 安装python相关python3https://blog.youkuaiyun.com/tanxiaob/article/details/78725301yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-...
2019-09-24 16:27:00
320
转载 selenium - 截图下载图片
from selenium import webdriverfrom selenium.webdriver import ChromeOptionsfrom time import sleepfrom PIL import Imageimport requestsclass Get_ahth(): """ 将验证码图片下到本地 ...
2019-09-24 16:26:00
370
转载 scrapy - 给scrapy 的spider 传值
scrapy - 给scrapy 的spider 传值方法一:在命令行用crawl控制spider爬取的时候,加上-a选项,例如:scrapy crawl myspider -a category=electronics 然后在spider里这样写:import scrapyclass MySpider(scrapy.Spider):...
2019-07-18 16:51:00
405
转载 手写分布式爬虫
手写分布式爬虫 分布式进程是指将Process进程分布到多台机器上,充分利用多台机器的性能完成复杂的任务。在Python的通过multiprocessing库来完成,该模块不仅支持多进程且还支持将多进程分布到多台机器上。分布式进程就是将把Queue暴露到网络中让其他机器进程可以访问的过程进行了封装,这个过程也称为本地队列的网络化。分布式爬虫服务主要为 6个步骤: ...
2019-07-16 11:37:00
303
转载 pyppeteer
pyppetter1. 环境安装pip install pyppeteer2. 快速快速上手爬取http://quotes.toscrape.com/js/全部页面数据\import asynciofrom pyppeteer import launchfrom lxml import etreeasync def main(...
2019-07-12 14:52:00
412
转载 Pyhon信息采集 - 喜马拉雅专辑歌曲
目录 Pyhon信息采集 - 喜马拉雅专辑歌曲 Pyhon信息采集 - 喜马拉雅专辑歌曲setting.py# 喜马拉雅URLXMLY_URL = "https://www.ximalaya.com/revision/play/album?albumId=%s&pageNum=%s&...
2019-05-21 16:28:00
132
转载 高性能的异步爬虫
目录 高性能的异步爬虫 一. 同步爬取 1. 普通爬取 2. 线程池爬取 二. 异步asyncio基本使用 1. 基本使用 2. task的使用 3. future的使用 ...
2019-05-21 16:25:00
106
转载 排序算法
1. 冒泡排序2. 选择排序3. 插入排序4. 希尔排序5. 快速排序转载于:https://www.cnblogs.com/konghui/p/10896082.html
2019-05-20 19:45:00
106
转载 顺序表和链表和二叉树
顺序表和链表顺序表集合中存储的元素是有顺序的,顺序表的结构可以分为两种形式:单数据类型和多数据类型。python中的列表和元组就属于多数据类型的顺序表单数据类型顺序表的内存图(内存连续开启)对应的内存空间是连续开辟的顺序表的变量/引用存的的(指向的)是内存空间的首地址...
2019-05-20 19:40:00
491
转载 栈和队列
一. 栈特性:先进后出的数据结构栈顶,栈尾应用:每个 web 浏览器都有一个返回按钮。当你浏览网页时,这些网页被放置在一个栈中(实际是网页的网址)。你现在查看的网页在顶部,你第一个查看的网页在底部。如果按‘返回’按钮,将按相反的顺序浏览刚才的页面。Stack() 创建一个空的新栈。 它不需要参数,并返回一个空栈。p...
2019-05-20 19:29:00
122
转载 Matplotlib基础知识
Matplotlib基础知识Matplotlib中的基本图表包括的元素x轴和y轴 axis水平和垂直的轴线x轴和y轴刻度 tick刻度标示坐标轴的分隔,包括最小刻度和最大刻度...
2019-05-15 21:31:00
209
转载 机器学习之图像识别
# 导包import numpy as npimport matplotlib.pyplot as pltfrom sklearn.neighbors import KNeighborsClassifier查看图片第一步: 创建列表样本第二步: 将列表转为numpy第三步: 获取符合要求的特征数据(二维)第四步...
2019-05-15 21:31:00
8559
转载 pandas - 案例(美国2012年总统候选人政治献金数据分析)
# 提供数据months = {'JAN' : 1, 'FEB' : 2, 'MAR' : 3, 'APR' : 4, 'MAY' : 5, 'JUN' : 6, 'JUL' : 7, 'AUG' : 8, 'SEP' : 9, 'OCT': 10, 'NOV': 11, 'DEC' : 12}parties = { 'Bachmann, Mi...
2019-05-14 16:44:00
441
转载 pandas - 案例(美国各州人口普查)
需求:导入文件,查看原始数据将人口数据和各州简称数据进行合并将合并的数据中重复的abbreviation列进行删除查看存在缺失数据的列找到有哪些state/region使得state的值为NaN,进行去重操作为找到的这些state/region的state项补上正确的值,从而去除掉state这一列的所有NaN合并各州面积数据areas我们会发现area...
2019-05-13 23:00:00
561
转载 pandas - 案例(股票分析)
需求:使用tushare包获取某股票的历史行情数据。输出该股票所有收盘比开盘上涨3%以上的日期。输出该股票所有开盘比前日收盘跌幅超过2%的日期。假如我从2010年1月1日开始,每月第一个交易日买入1手股票,每年最后一个交易日卖出所有股票,到今天为止,我的收益如何?1. 使用tushare包获取某股票的历史行情数据。.2. ...
2019-05-13 23:00:00
352
转载 高性能的异步爬虫
目录 高性能的异步爬虫 一. 同步爬取 1. 普通爬取 2. 线程池爬取 二. 异步asyncio基本使用 1. 基本使用 2. task的使用 3. future的使用 ...
2019-05-11 14:40:00
122
转载 增量式爬虫
目录 增量式爬虫 增量式爬虫 案例: 爬取4567tv网站中所有的电影详情数据 需求:爬取糗事百科中的段子和作者数据。 增量式爬虫当我们在浏览相关网页的时候会发现,某些网站定时会在原有网页数据的基础上更新一批数据,例如某电影网站会实时更...
2019-05-04 18:24:00
600
转载 基于scrapy-redis两种形式的分布式爬虫
目录 基于scrapy-redis两种形式的分布式爬虫 基于scrapy-redis两种形式的分布式爬虫1.scrapy框架是否可以自己实现分布式? - 不可以。原因有二。 其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls...
2019-05-04 18:23:00
125
转载 scrapy框架的日志等级和请求传参, 优化效率
目录 scrapy框架的日志等级和请求传参, 优化效率 Scrapy的日志等级 请求传参 如何提高scripy的爬取效率 scrapy框架的日志等级和请求传参, 优化效率Scrapy的日志等级在使用scrapy cr...
2019-05-04 18:22:00
204
转载 UA池和代理池
目录 UA池和代理池 一. 下载代理池 UA池:User-Agent池 代理池 UA池和代理池一. 下载代理池下载中间件(Downloader Middlewares) 位于scrapy引擎和下载器之间的一层组件。作用:(1)...
2019-05-04 18:22:00
107
转载 Python网络爬虫之Scrapy框架(CrawlSpider)
目录 Python网络爬虫之Scrapy框架(CrawlSpider) CrawlSpider使用 爬取糗事百科糗图板块的所有页码数据 Python网络爬虫之Scrapy框架(CrawlSpider)提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数...
2019-05-04 18:21:00
130
转载 scrapy框架之递归解析和post请求
目录 scrapy框架之递归解析和post请求 递归爬取解析多页页面数据 五大核心组件工作流程: post请求发送 scrapy框架之递归解析和post请求递归爬取解析多页页面数据需求:将糗事百科所有页码的作者和段子内容数据进行爬取切...
2019-05-04 18:20:00
179
转载 scrapy中selenium的应用
目录 scrapy中selenium的应用 scrapy中selenium的应用1.案例分析:- 需求:爬取网易新闻的国内板块下的新闻数据- 需求分析:当点击国内超链进入国内对应的页面时,会发现当前页面展示的新闻数据是被动态加载出来的,如果直接通过程序对url进行请求,是获取不到动态加载出的新闻数...
2019-05-04 18:19:00
94
转载 scrapy框架持久化存储
目录 scrapy框架持久化存储 1. 基于终端指令的持久化存储 2. 基于管道的持久化存储 3. 将糗事百科首页中的段子和作者数据爬取下来,然后进行持久化存储 基于mysql的管道存储 基于redis的管道存储 如果最终需要将爬取到的数据...
2019-05-04 18:18:00
229
转载 scrapy框架简介和基础应用
目录 scrapy框架简介和基础应用 安装 基本用法 1.创建项目:scrapy startproject 项目名称 2.创建爬虫应用程序: 3.编写爬虫文件: 4.设置修改settings.py配置文件相关配置: 5.执行...
2019-05-04 18:17:00
138
转载 浏览器控制之 selenium,phantomJs谷无头浏览器
目录 浏览器控制之 selenium,phantomJs谷无头浏览器 selenium phantomJs 需求是尽可能多的爬取豆瓣网中的电影信息 谷歌无头浏览器 浏览器控制之 selenium,phant...
2019-05-04 18:16:00
314
转载 移动端数据爬取
目录 移动端数据爬取 移动端抓包工具fiddler 什么是Fiddler 设置相关 移动端数据爬取移动端抓包工具fiddler什么是FiddlerFiddler是位于客户端和服务器端的HTTP代理,也是目前最常用的h...
2019-05-04 18:16:00
144
转载 图片懒加载技术
目录 图片懒加载技术 一. 案例分析:抓取站长素材http://sc.chinaz.com/中的图片数据 图片懒加载技术一. 案例分析:抓取站长素材http://sc.chinaz.com/中的图片数据#!/usr/bin/env python# -*- codin...
2019-05-04 18:14:00
174
转载 验证码处理
目录 验证码处理 验证码处理云打码平台处理验证码的实现流程:1.对携带验证码的页面数据进行抓取2.可以将页面数据中验证码进行解析,验证码图片下载到本地3.可以将验证码图片提交给三方平台进行识别,返回验证码图片上的数据值云打码平台:1.在官网中进行注册(普通用户和开发者用户)2.登录开发...
2019-05-04 18:13:00
142
转载 最快理解 - IO多路复用:select / poll / epoll 的区别.
目录 第一个解决方案(多线程) 第二个解决方案(select) 第三个解决方案(poll) 最终解决方案(epoll) 客栈遇到的问题从开始学习编程后,我就想开一个 Hello World 餐厅,由于一开始资金不足,所以只能开一个古老的小客栈。客栈运营了...
2019-04-22 22:04:00
107
转载 Golang - 爬虫案例实践
目录 Golang - 爬虫案例实践 1. 爬虫步骤 2. 正则表达式 3. 并发爬取美图 Golang - 爬虫案例实践1. 爬虫步骤明确目标(确定在哪个网址搜索)爬(爬下数据)取(去掉没用的数据)处理数据(按具体业务去使用数...
2019-04-20 19:08:00
193
转载 Django REST framework - 解析器和渲染器
目录 Django REST framework - 解析器和渲染器 解析器 Django中的数据解析 DRF中的解析器 渲染器 Django REST framework - 解析器和渲染器解析器解析...
2019-04-14 18:34:00
108
转载 Django REST framework - 分页
目录 Django REST framework - 分页 DRF使用分页器 DRF内置分页器 PageNumberPagination LimitOffsetPagination CursorPagination ...
2019-04-14 18:33:00
117
转载 Django - 分页
目录 Django - 分页 自定义分页 第一版 第二版 第三版 Django内置分页 Django - 分页自定义分页第一版def publisher_list(request):...
2019-04-14 17:48:00
118
转载 Django - Cookie和Session
目录 Django - Cookie和Session cookie Django中操作Cookie Cookie版登陆校验 Session Django中Session相关方法 Session流程解析 Se...
2019-04-14 17:47:00
122
转载 Django - ORM操作
目录 Django - ORM操作 一. 必知必会13条 单表查询之神奇的双下划线 二. ForeignKey操作 正向查找 反向操作 三. ManyToManyField 四. 聚合查询...
2019-04-14 17:46:00
174
转载 Django - ORM字段和字段参数
目录 Django - ORM字段和字段参数 一. Django中的ORM 1. Django项目使用MySQL数据库 2.Model 3.基本用法 Django ORM 常用字段和参数 常用字段 其他字段...
2019-04-14 17:44:00
153
转载 Golang之路
目录 Golang之路 Golang之路Golang(一) - 开篇必须吹牛逼Golang(二) - 第一个go程序和基本语法Golang(三) - 函数Golang(四) - 流程控制Golang(五) - 复合类型Golang(六) - 面对"对象"Golang(七) - 处理字符串...
2019-04-13 23:58:00
87
转载 Golang - 并发编程
目录 Golang - 并发编程 1. 并行和并发 2. go语言并发优势 3. goroutine是什么 4. 创建goroutine 5. runtime包 6. channel是什么 7. channel的基本使用 ...
2019-04-13 23:47:00
201
转载 Golang - 处理json
目录 Golang - 处理json 1. 编码json 2. 解码json Golang - 处理json1. 编码json使用json.Marshal()函数可以对一组数据进行JSON格式的编码func Marshal(v interface{...
2019-04-13 23:46:00
103
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人