baoding4359-优快云博客

转载部署 --- 2. WSGI服务

WSGI Nginx 反向代理、负载均衡转载于:https://www.cnblogs.com/TMMM/p/11598600.html

2019-09-27 16:12:00 193

转载排序算法

冒泡排序规则: 　　每一次遍历比较列表中元素时都是从左向右两两进行比较　　每一次遍历比较之后都会的对应的最值，下一次遍历的时候最值不用在参与比较　　每一次遍历之后都会少一个最值元素参与排序比较　　想完成排序就需要经历 len(列表长度)-1 次遍历；遍历列表就需要循环；需要使用双层循环来完成：　　第几次遍历 + 此次遍历比较的次数 = 列表的长度 ...

2019-09-15 16:51:00 149

转载部署 --- 1. 阿里云服务器配置

Linux命令介绍软硬链接　　作用：建立连接文件，linux下的连接文件类似于windows下的快捷方式　　分类：　　　　软链接：软链接不占用磁盘空间，源文件删除则软链接失效　　　　硬链接：硬链接只能链接不同文件，不能链接目录　　创建：　　　　软链接：ln -s 源文件链接文件　　　　硬链接：ln 源文件链接文件　　注意：　　　　软链接：如果软...

2019-09-15 14:57:00 173

转载 flask 之(六) --- API|RestfulApi

接口概念　　IOP：面向接口编程，不再关注具体的实现；只关注输入、输出。　　http://www.ruanyifeng.com/blog/2018/10/restful-api-best-practices.html 服务器返回数据类型：　　网页数据html，为浏览器使用　　Json数据，ajax javascript发请求的一种方式；也可以使用request的...

2019-09-10 20:32:00 200

转载 flask 之(五) --- 对象|钩子|拆分

内置对象 request：　　请求的所有信息 session　　服务端会话技术的接口 config:　　当前项目的配置信息，模板中可以直接使用 g：global　　在单次请求过程中，实现全局数据共享(可以帮助开发者实现跨函数传递数据) from flask import Blueprint, render_template, g from .mode...

2019-09-07 10:47:00 230

转载 flask 之(四) --- 扩展|缓存|会话

扩展蓝图内置扩展　(实现的是路由的拆分) 1 '''----------- app.py -------------''' 2 from flask import Flask 3 from users_views import blue1 4 from orders_views import blue2 5 6 app = Flask(__name__...

2019-09-06 23:21:00 313

转载 flask 之(三) --- 筛选|分页|过滤

筛选查询数据筛选语法：类名.query.筛选符　　　.all( )：获取结果集；.count( )：获取查询到的对象数量　　类名.query.filter(类名.属性.运算符('xxx')).all() 　　类名.query.filter(类名.属性数学运算符值).all() 筛选符：　　filter_by()：根据什么过滤，通常用在级连关系查询上，属性=值。不常...

2019-09-05 20:31:00 882

转载 flask 之(二) --- 视图|模版|模型

Flask框架　　打开pycharm编译器，新建一个Flask项目，选择提前建好的虚拟环境。　　项目结构：　　　　static：静态资源文件，可以直接被浏览器访问　　　　templates：模版文件，必须在项目的python代码中进行渲染给前端，浏览器才可访问　　　　app.py：python的程序文件　　返回信息：可以是字符串、html标签、模版　　...

2019-09-03 08:24:00 390

转载 flask 之(一) --- 介绍|框架|安装

简单介绍　　Flask是一个基于Python实现的Web开发‘微’框架，和Django一样，也是基于MVC设计模式的Web框架。　　官方文档：http://flask.pocoo.org/docs/0.12/ 　　中文文档：http://docs.jinkan.org/docs/flask 　　Flask依赖三个库：　　　　Jinja2 模版引擎　　　　Werkzeu...

2019-09-03 08:10:00 146

转载 python基础 --- 难点重点

循环嵌套 1 # 打印九九乘法表 2 3 for row in range(1,10): # 行与列相乘 4 for col in range(1,row+1): 5 print(col,'*',row,'=',row * col, end="\t") 6 print() 三元运算　　变量 = 条件表达式 and 结果1 or ...

2019-09-02 21:08:00 205

转载爬虫基础spider 之(五) --- 代理、异常、验证码、ai

ip代理配置 1 from urllib import request,parse 2 3 url = "https://www.baidu.com/s?wd=ip" 4 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, lik...

2019-08-30 09:23:00 175

转载爬虫解析Re 之(六 ) --- Re模块

正则表达式正则表达式其实就是特殊的字符串, 帮助进行检索, 校验, 查询等行为，是对字符串操作的一种逻辑公式，事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符”，这个“规则字符” 来表达对字符的一种过滤逻辑。 Python提供的正则表达式机制: 需要导入模块 re 正则表达式使用场景验证的作用: 密码的验证用户名的验证邮箱手机号等等爬虫: 查询...

2019-08-30 09:22:00 135

转载爬虫解析PyQuery 之(十) --- PyQuery模块

PyQuery库也是一个非常强大又灵活的网页解析库，如果你有前端开发经验的，都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择，PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同，所以不用再去费心去记一些奇怪的方法了转载于:https://www.cnblogs.com/TMMM/p/11366866.html...

2019-08-29 10:42:00 156

转载爬虫解析Selenium 之(九) --- Selenium模块

Selenium 　　elenium 是一套完整的web应用程序测试系统，　　包含：　　　　1.测试的录制（selenium IDE）　　　　2.编写及运行（Selenium Remote Control）　　　　3.测试的并行处理（Selenium Grid）　　Selenium的核心Selenium Core基于JsUnit，完全由JavaScr...

2019-08-29 10:41:00 119

转载 python高级之(五) --- 文件操作

文件操作 1 """ 2 在程序中操作的文件内容： 3 1. 读取文件中的内容 4 2. 向文件中写入内容 5 6 首先： 7 在程序中与文件建立一个通道，通过通道操作文件指针，达到所要的结果 8 向文件中不管读和写，在程序中都需要打开一个文件 9 10 文件打开方式：open()。会返回一个操作文件的手柄，可...

2019-08-28 13:10:00 171

转载 python高级之(四) --- 模块方法

模块　　时间模块：time/datatime/calendar。　　系统操作文件模块：os time模块介绍 1 import time 2 3 # 获取当前时间, 结果是存在时间元组中的。星期一是从0开始的 4 # 结果：time.struct_time(tm_year=2019, tm_mon=8, tm_mday=22, tm_hour=...

2019-08-28 13:09:00 111

转载 python高级之(三) --- 高阶函数

高阶函数 map函数简介 1 """ 2 map(func，*iterables) 3 参数：一个是函数、一个是序列 4 作用：将序列中的元素依此作用于函数，将函数运行结果返回 5 存放于map类型数据中。常用于转化　　　　注意：存放在map类型的数据中，如果数据被取出，再去取就没有数据了 6 """ ...

2019-08-28 13:08:00 141

转载 python高级之(二) --- 类装饰器

装饰器-初级　　在不改变原有函数逻辑功能的基础上，为函数添加新的逻辑功能。使代码可读性更高、结构更加清晰、冗余度更低简介 1 """ 2 闭包：函数嵌套的格式就是闭包。写装饰器的闭包是外层函数的返回值就是内层函数 3 装饰器：一种特殊的闭包加上语法糖[@语法]组成的 4 其作用：在不修改原有功能的基础上，为该功能添加其他新的需求。不管在函数中...

2019-08-28 13:07:00 126

转载 python高级之(一) --- 函数类型

函数模块　　模块: 一个py文件就是一个模块, 每个模块之间是可以相互访问的访问之前需要进行导入　　分类:　1.系统提供的模块 math random 　　　　　2.自己自定义的，自己封装的常用功能的的py文件　　　　　3.第三方模块需要进行安装。安装格式: pip install 三方模块名　　导入：1. import 模块名；使用：模块名.内容　...

2019-08-28 12:48:00 113

转载 python --- 难点重点总结

生成式子列表生成式字典生成式深浅拷贝 1 list0 = [12,24,34,32,[64,23]] 2 3 # 浅拷贝：浅拷贝只是将最外层容器拷贝一份放在堆里面，内层的容器不会被拷贝还是使用原来的地址 4 list1 = list0.copy() 5 print(id(list0)) # 结果地址：4517928904...

2019-08-28 10:09:00 851

转载进程_线程之(六) --- 协程

协程简介区别：线程和进程的操作是由程序触发系统接口，执行者是系统；协程的操作则是程序员。协程存在的意义：对于多线程应用，CPU通过切片的方式来切换线程间的执行，线程切换时需要耗时（保存状态，下次继续）。　　　　　　　　协程，则只使用一个线程，在一个线程中规定某个代码块执行顺序。协成的原理：利用一个线程，分解一个线程成为多个微线程，注意此时从程序级别来分解的适用场景：当...

2019-08-19 23:35:00 132

转载进程_线程之(五) --- 生产者消费者

同步锁 acquire([timeout])/release(): 调用关联的锁的相应方法。wait([timeout]): 调用这个方法将使线程进入Condition的等待池等待通知，并释放锁。使用前线程必须已获得锁定，否则将抛出异常。notify(): 调用这个方法将从等待池挑选一个线程并通知，收到通知的线程将自动调用acquire()尝试获得锁定（进入锁定池）；其他...

2019-08-19 23:32:00 180

转载爬与反爬

概念　爬虫:　自动获取网站数据的程序　反爬虫：使用技术手段防止爬虫程序爬取数据　误伤：反爬虫技术将普通用户识别为爬虫，这种情况多出现在封ip中，例如学校网络、小区网络再或者网络网络都是共享一个公共ip，　　　　　　　　　　　　　　　　　　　　　　　　　　　　这个时候如果是封ip就会导致很多正常访问的用户也无法获取到数据。所以相对来说封ip的策...

2019-08-19 22:22:00 118

转载进程_线程之(四) --- 信号量和队列

信号量信号量：　　信号量就对线程最大并发数做限制，　　如果当前线程开启的个数超过了线程最大并发量，　　超出的线程要暂停执行，直到有线程执行完成，才加入新的线程代码 1 import threading 2 from time import sleep 3 4 # 定义一个信号量（线程的最大并发量） 5 sem = threading.Sema...

2019-08-19 19:59:00 308

转载进程_线程之(三) --- 线程安全

线程安全无问题时 1 import threading 2 3 m = 0 4 # 如果多个线程去操作同一个外部资源，那么就可能造成线程的不安全。 5 # 多个线程同时访问同一个外部资源，就可能会出现读写冲突 6 def increase(): 7 global m 8 for i in range(100): # 循环次...

2019-08-19 19:20:00 113

转载进程_线程之(二) --- 进程线程

进程　　单任务[单进程] 1 from time import sleep 2 3 def func(): 4 print("你好，我也是单任务") 5 6 if __name__ == '__main__': 7 while True: 8 print("你好我是单任务") 9 sl...

2019-08-19 16:11:00 121

转载进程_线程之(一) --- 多任务

什么是多任务多个任务同时运行在同一个操作系统上现在操作系统几乎全部是多任务多任务的原理串行：多个任务依次执行，前面的任务不执行结束后面的任务就不能开启并行：多个任务同时执行，一个cpu某个时刻只能执行一个任务，并行需要多机系统支持，每开启一个任务就把这个任务放在指定cpu上运行并发：多个任务在同一个cpu上交替执行；例如：一个操作系统同时开启了...

2019-08-19 15:12:00 177

转载爬虫框架Scrapy 之(九) --- scrapy分布式原理

原理分布式redis数据库中有4个key xxx:start_urls：用于向分布式系统提供起始url xxx:requests：用于盛放在爬虫运行的过程中新产生的那些请求对象 xxx:items：用于存储爬虫爬取的数据 xxx:dupefilter：用于盛放已经被访过的那些请求对象分布式爬虫的运行过程把所有的分机（slaver端）上的爬虫运行起来，由于...

2019-08-19 14:30:00 152

转载爬虫框架Scrapy 之(八) --- scrapy分布式部署

分布式爬虫介绍　　一个分布式爬虫，一般有两个端：master端，主要负责处理数据；slaver端，主要负责爬取数据业务。　　不同的端采用不同的平台。服务程序都用linux系统，业务程序都用widoms系统。　　服务器端（master端）：　　　　可以用某一台主机作为redis服务器的运行方（即服务端），也称为master。服务程序都用linux系统　　客户...

2019-08-17 23:49:00 218

转载爬虫框架Scrapy 之(七) --- scrapy代理植入

获取代理　　在网上搜索代理网站(代理精灵、极光代理)。获取代理后，　　在爬虫项目中新建一个爬虫脚本文件，用来抓取下来代理网站上获取的代理。然后存入redis数据库 crawlippool.py 1 import requests 2 import redis 3 import json 4 url = "http://t.11jsq.com/inde...

2019-08-17 23:47:00 152

转载爬虫框架Scrapy 之(六) --- scrapy增量爬虫

增量爬虫　　在scrapy中有很多的爬虫模版，这些模版都是基于basic模版进行的功能扩展（例如：crawl模版、feed模版等）最常用的是crawl（即增量式爬虫）　　basicspider的设计理念是：从start_urls里面取出起始的url，使用start_urls来驱动引擎工作　　增量式爬虫：首先以start_urls中的url为起点，从这些url中不断的请求网页，...

2019-08-17 23:44:00 328

转载爬虫框架Scrapy 之(五) --- scrapy运行原理(中间件)

创建项目　　创建一个爬虫项目，爬取蘑菇街数据。 1 cd 到存放项目的目录下 2 scrapy startproject MogujiePro 3 在pycharm中打开项目 4 scrapy genspider mogu mogujie.com 文件介绍 settings.py 文件 1 # Enable or disable downloa...

2019-08-17 17:41:00 229

转载 python基础之(一) --- 基础语法1

注释 * 单行注释 > * 格式： #注释内容 * 多行注释 > * 格式： '''注释内容''' ### 变量 * 标识符构成规范 > * 数字、字母、下划线 > * 不可以数字开头 > * 不可以使用python的关键字 * 自定义名字规范 > * 自定义py文件名：英文字母全部小写，每个单词用下划线连接 ...

2019-05-09 21:20:00 85

转载爬虫解析bs4 之(八) --- bs4模块

　　beautifulsoup就是一个非常强大的工具，爬虫利器。beautifulSoup “美味的汤，绿色的浓汤” 　　一个灵活又方便的网页解析库，处理高效，支持多种解析器。利用它就不用编写正则表达式也能方便的实现网页信息的抓取 bs4简单使用 bs4是一个html的解析工具，根据html的特征和属性来查找节点 1 from bs4 import Beautiful...

2019-05-09 20:22:00 182

转载爬虫基础Requests 之(四) --- Requests模块

什么是Requests Requests是采用Apache2 Licensed开源协议的HTTP库,用python语言基于urllib编写的。使用 Requests会比urllib更加方便，可以节约我们大量的工作。Requests是python实现的最简单易用的HTTP库。 Requests模块需要单独通过pip安装（pip install Requests） requests功...

2019-05-09 19:51:00 156

转载爬虫基础urllib 之(三) --- urllib模块

Mac本需导入ssl 1 import ssl 2 ssl._create_default_https_context = ssl._create_unverified_context urllib.request模块方法从urllib中导入请求模块编写url 1 from urllib import request # 导入request模块 ...

2019-05-08 20:38:00 231

转载爬虫项目 --- urllib 和正则re

from urllib import request,parse from time import sleep import re # 1、【数据的获取】 # 封装一个函数，用于将url转化成一个请求对象 def request_by(url,page): headers = { 'User-Agent': 'Mozilla/5.0 (Win...

2019-05-08 20:33:00 63

转载爬虫基础urllib 之(二) --- urllib基础

能爬取什么样的数据　　网页文本：如HTML文档，Json格式化文本等　　图片：　　获取到的是二进制文件，保存为图片格式　　视频: 同样是二进制文件　　其他：只要请求到的，都可以获取如何解析数据直接处理 Json解析正则表达式处理 BeautifulSoup解析处理 PyQuery解析处理 XPath解析处理抓取的页面数据和浏...

2019-05-08 19:00:00 187

转载爬虫基础spider 之(一) --- 初识爬虫

爬虫概念（spider，网络蜘蛛）通过互联网上一个个的网络节点，进行数据的提取、整合以及存储。从而获取我们想要的部分 robots协议 robots协议不是技术层面的协议，只是一个君子协定；首先在爬取一个网站的时候，第一步就是访问这个网站的robots.txt文件，在这个文件中规定了那些东西能爬哪些东西不能爬，爬虫要严格遵守，只爬取允许的内容，不要去爬取不允许的内容...

2019-05-06 19:36:00 179

转载数据分析之(一) --- 环境搭建

安装首先打来终端，安装 ipython 。可以在终端输入 ipython 回车进入：exit() 回车退出 1 pip -V 2 pip install ipython 其次安装 jupyter 1 pip install jupyter 启动程序命令：jupyter notebook 这个命令可以启动jupyter的交互服务...

2019-05-05 17:22:00 219

空空如也

空空如也