- 博客(43)
- 收藏
- 关注
转载 部署 --- 2. WSGI服务
WSGINginx反向代理、负载均衡转载于:https://www.cnblogs.com/TMMM/p/11598600.html
2019-09-27 16:12:00
174
转载 排序算法
冒泡排序 规则: 每一次遍历比较列表中元素时 都是从左向右两两进行比较 每一次遍历比较之后 都会的对应的最值,下一次遍历的时候最值不用在参与比较 每一次遍历之后都会少一个最值元素参与排序比较 想完成排序就需要经历 len(列表长度)-1 次遍历;遍历列表就需要 循环; 需要使用双层循环来完成: 第几次遍历 + 此次遍历比较的次数 = 列表的长度...
2019-09-15 16:51:00
143
转载 部署 --- 1. 阿里云服务器配置
Linux命令介绍软硬链接 作用:建立连接文件,linux下的连接文件类似于windows下的快捷方式 分类: 软链接:软链接不占用磁盘空间,源文件删除则软链接失效 硬链接:硬链接只能链接不同文件,不能链接目录 创建: 软链接:ln -s 源文件 链接文件 硬链接:ln 源文件 链接文件 注意: 软链接:如果软...
2019-09-15 14:57:00
165
转载 flask 之(六) --- API|RestfulApi
接口概念 IOP:面向接口编程,不再关注具体的实现;只关注输入、输出。 http://www.ruanyifeng.com/blog/2018/10/restful-api-best-practices.html服务器返回数据类型: 网页数据html,为浏览器使用 Json数据,ajax javascript发请求的一种方式;也可以使用request的...
2019-09-10 20:32:00
188
转载 flask 之(五) --- 对象|钩子|拆分
内置对象request: 请求的所有信息session 服务端会话技术的接口config: 当前项目的配置信息,模板中可以直接使用g:global 在单次请求过程中,实现全局数据共享(可以帮助开发者实现跨函数传递数据)from flask import Blueprint, render_template, gfrom .mode...
2019-09-07 10:47:00
222
转载 flask 之(四) --- 扩展|缓存|会话
扩展蓝图内置扩展 (实现的是路由的拆分) 1 '''----------- app.py -------------''' 2 from flask import Flask 3 from users_views import blue1 4 from orders_views import blue2 5 6 app = Flask(__name__...
2019-09-06 23:21:00
301
转载 flask 之(三) --- 筛选|分页|过滤
筛选查询数据筛选语法:类名.query.筛选符 .all( ):获取结果集;.count( ):获取查询到的对象数量 类名.query.filter(类名.属性.运算符('xxx')).all() 类名.query.filter(类名.属性 数学运算符 值).all()筛选符: filter_by():根据什么过滤,通常用在级连关系查询上,属性=值。不常...
2019-09-05 20:31:00
855
转载 flask 之(二) --- 视图|模版|模型
Flask框架 打开pycharm编译器,新建一个Flask项目,选择提前建好的虚拟环境 。 项目结构: static:静态资源文件,可以直接被浏览器访问 templates:模版文件,必须在项目的python代码中进行渲染给前端,浏览器才可访问 app.py:python的程序文件 返回信息:可以是字符串、html标签、模版 ...
2019-09-03 08:24:00
377
转载 flask 之(一) --- 介绍|框架|安装
简单介绍 Flask是一个基于Python实现的Web开发‘微’框架,和Django一样,也是基于MVC设计模式的Web框架。 官方文档:http://flask.pocoo.org/docs/0.12/ 中文文档:http://docs.jinkan.org/docs/flask Flask依赖三个库: Jinja2 模版引擎 Werkzeu...
2019-09-03 08:10:00
136
转载 python基础 --- 难点重点
循环嵌套1 # 打印九九乘法表2 3 for row in range(1,10): # 行与列相乘4 for col in range(1,row+1):5 print(col,'*',row,'=',row * col, end="\t")6 print()三元运算 变量 = 条件表达式 and 结果1 or ...
2019-09-02 21:08:00
194
转载 爬虫基础spider 之(五) --- 代理、异常、验证码、ai
ip代理配置 1 from urllib import request,parse 2 3 url = "https://www.baidu.com/s?wd=ip" 4 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, lik...
2019-08-30 09:23:00
163
转载 爬虫解析Re 之(六 ) --- Re模块
正则表达式正则表达式其实就是特殊的字符串, 帮助进行检索, 校验, 查询等行为,是对字符串操作的一种逻辑公式,事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符”,这个“规则字符” 来表达对字符的一种过滤逻辑。Python提供的正则表达式机制: 需要导入模块 re正则表达式使用场景验证的作用: 密码的验证 用户名的验证 邮箱 手机号等等爬虫: 查询...
2019-08-30 09:22:00
127
转载 爬虫解析PyQuery 之(十) --- PyQuery模块
PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同,所以不用再去费心去记一些奇怪的方法了转载于:https://www.cnblogs.com/TMMM/p/11366866.html...
2019-08-29 10:42:00
152
转载 爬虫解析Selenium 之(九) --- Selenium模块
Selenium elenium 是一套完整的web应用程序测试系统, 包含: 1.测试的录制(selenium IDE) 2.编写及运行(Selenium Remote Control) 3.测试的并行处理(Selenium Grid) Selenium的核心Selenium Core基于JsUnit,完全由JavaScr...
2019-08-29 10:41:00
113
转载 python高级 之(五) --- 文件操作
文件操作 1 """ 2 在程序中操作的文件内容: 3 1. 读取文件中的内容 4 2. 向文件中写入内容 5 6 首先: 7 在程序中与文件建立一个通道,通过通道操作文件指针,达到所要的结果 8 向文件中不管读和写,在程序中都需要打开一个文件 9 10 文件打开方式:open()。会返回一个操作文件的手柄,可...
2019-08-28 13:10:00
158
转载 python高级 之(四) --- 模块方法
模块 时间模块:time/datatime/calendar。 系统操作文件模块:ostime模块介绍 1 import time 2 3 # 获取当前时间, 结果是存在时间元组中的。星期一是从0开始的 4 # 结果:time.struct_time(tm_year=2019, tm_mon=8, tm_mday=22, tm_hour=...
2019-08-28 13:09:00
108
转载 python高级 之(三) --- 高阶函数
高阶函数map函数简介 1 """ 2 map(func,*iterables) 3 参数:一个是函数、一个是序列 4 作用:将序列中的元素依此作用于函数,将函数运行结果返回 5 存放于map类型数据中。常用于转化 注意:存放在map类型的数据中,如果数据被取出,再去取就没有数据了 6 """...
2019-08-28 13:08:00
136
转载 python高级 之(二) --- 类装饰器
装饰器-初级 在不改变原有函数逻辑功能的基础上,为函数添加新的逻辑功能。使代码可读性更高、结构更加清晰、冗余度更低简介 1 """ 2 闭包: 函数嵌套的格式就是闭包。写装饰器的闭包是外层函数的返回值就是内层函数 3 装饰器:一种特殊的闭包 加上 语法糖[@语法]组成的 4 其作用:在不修改原有功能的基础上,为该功能添加其他新的需求。不管在函数中...
2019-08-28 13:07:00
120
转载 python高级 之(一) --- 函数类型
函数模块 模块: 一个py文件就是一个模块, 每个模块之间是可以相互访问的 访问之前需要进行导入 分类: 1.系统提供的模块 math random 2.自己自定义的,自己封装的常用功能的的py文件 3.第三方模块需要进行安装。安装格式: pip install 三方模块名 导入:1. import 模块名 ;使用:模块名.内容 ...
2019-08-28 12:48:00
106
转载 python --- 难点重点总结
生成式子列表生成式字典生成式深浅拷贝 1 list0 = [12,24,34,32,[64,23]] 2 3 # 浅拷贝:浅拷贝只是将最外层容器拷贝一份放在堆里面,内层的容器不会被拷贝还是使用原来的地址 4 list1 = list0.copy() 5 print(id(list0)) # 结果地址:4517928904...
2019-08-28 10:09:00
841
转载 进程_线程 之(六) --- 协程
协程简介区别:线程和进程的操作是由程序触发系统接口,执行者是系统;协程的操作则是程序员。协程存在的意义:对于多线程应用,CPU通过切片的方式来切换线程间的执行,线程切换时需要耗时(保存状态,下次继续)。 协程,则只使用一个线程,在一个线程中规定某个代码块执行顺序。协成的原理:利用一个线程,分解一个线程成为多个微线程,注意此时从程序级别来分解的适用场景:当...
2019-08-19 23:35:00
125
转载 进程_线程 之(五) --- 生产者消费者
同步锁acquire([timeout])/release(): 调用关联的锁的相应方法。wait([timeout]): 调用这个方法将使线程进入Condition的等待池等待通知,并释放锁。使用前线程必须已获得锁定,否则将抛出异常。notify(): 调用这个方法将从等待池挑选一个线程并通知,收到通知的线程将自动调用acquire()尝试获得锁定(进入锁定池);其他...
2019-08-19 23:32:00
169
转载 爬与反爬
概念 爬虫: 自动获取网站数据的程序 反爬虫:使用技术手段防止爬虫程序爬取数据 误伤: 反爬虫技术将普通用户识别为爬虫,这种情况多出现在封ip中,例如学校网络、小区网络再或者网络网络都是共享一个公共ip, 这个时候如果是封ip就会导致很多正常访问的用户也无法获取到数据。所以相对来说封ip的策...
2019-08-19 22:22:00
112
转载 进程_线程 之(四) --- 信号量和队列
信号量信号量: 信号量就对线程最大并发数做限制, 如果当前线程开启的个数超过了线程最大并发量, 超出的线程要暂停执行,直到有线程执行完成,才加入新的线程代码 1 import threading 2 from time import sleep 3 4 # 定义一个信号量(线程的最大并发量) 5 sem = threading.Sema...
2019-08-19 19:59:00
296
转载 进程_线程 之(三) --- 线程安全
线程安全无问题时 1 import threading 2 3 m = 0 4 # 如果多个线程去操作同一个外部资源,那么就可能造成线程的不安全。 5 # 多个线程同时访问同一个外部资源,就可能会出现读写冲突 6 def increase(): 7 global m 8 for i in range(100): # 循环次...
2019-08-19 19:20:00
106
转载 进程_线程 之(二) --- 进程线程
进程 单任务[单进程] 1 from time import sleep 2 3 def func(): 4 print("你好,我也是单任务") 5 6 if __name__ == '__main__': 7 while True: 8 print("你好我是单任务") 9 sl...
2019-08-19 16:11:00
116
转载 进程_线程 之(一) --- 多任务
什么是多任务多个任务同时运行在同一个操作系统上现在操作系统几乎全部是多任务多任务的原理 串行:多个任务依次执行,前面的任务不执行结束后面的任务就不能开启 并行:多个任务同时执行,一个cpu某个时刻只能执行一个任务,并行需要多机系统支持,每开启一个任务就把这个任务放在指定cpu上运行 并发:多个任务在同一个cpu上交替执行;例如:一个操作系统同时开启了...
2019-08-19 15:12:00
165
转载 爬虫框架Scrapy 之(九) --- scrapy分布式原理
原理分布式redis数据库中有4个keyxxx:start_urls:用于向分布式系统提供起始urlxxx:requests:用于盛放在爬虫运行的过程中新产生的那些请求对象xxx:items:用于存储爬虫爬取的数据xxx:dupefilter:用于盛放已经被访过的那些请求对象分布式爬虫的运行过程把所有的分机(slaver端)上的爬虫运行起来,由于...
2019-08-19 14:30:00
143
转载 爬虫框架Scrapy 之(八) --- scrapy分布式部署
分布式爬虫介绍 一个分布式爬虫,一般有两个端:master端,主要负责处理数据;slaver端,主要负责爬取数据业务。 不同的端采用不同的平台。服务程序都用linux系统,业务程序都用widoms系统。 服务器端(master端): 可以用某一台主机作为redis服务器的运行方(即服务端),也称为master。服务程序都用linux系统 客户...
2019-08-17 23:49:00
212
转载 爬虫框架Scrapy 之(七) --- scrapy代理植入
获取代理 在网上搜索代理网站(代理精灵、极光代理)。获取代理后, 在爬虫项目中新建一个爬虫脚本文件,用来抓取下来代理网站上获取的代理。然后存入redis数据库crawlippool.py 1 import requests 2 import redis 3 import json 4 url = "http://t.11jsq.com/inde...
2019-08-17 23:47:00
146
转载 爬虫框架Scrapy 之(六) --- scrapy增量爬虫
增量爬虫 在scrapy中有很多的爬虫模版,这些模版都是基于basic模版进行的功能扩展(例如:crawl模版、feed模版等)最常用的是crawl(即增量式爬虫) basicspider的设计理念是:从start_urls里面取出起始的url,使用start_urls来驱动引擎工作 增量式爬虫:首先以start_urls中的url为起点,从这些url中不断的请求网页,...
2019-08-17 23:44:00
313
转载 爬虫框架Scrapy 之(五) --- scrapy运行原理(中间件)
创建项目 创建一个爬虫项目,爬取蘑菇街数据。1 cd 到存放项目的目录下2 scrapy startproject MogujiePro 3 在pycharm中打开项目4 scrapy genspider mogu mogujie.com文件介绍settings.py 文件 1 # Enable or disable downloa...
2019-08-17 17:41:00
219
转载 python基础 之(一) --- 基础语法1
注释* 单行注释> * 格式: #注释内容* 多行注释> * 格式: '''注释内容'''### 变量* 标识符构成规范> * 数字、字母、下划线> * 不可以数字开头> * 不可以使用python的关键字* 自定义名字规范> * 自定义py文件名:英文字母全部小写,每个单词用下划线连接...
2019-05-09 21:20:00
82
转载 爬虫解析bs4 之(八) --- bs4模块
beautifulsoup就是一个非常强大的工具,爬虫利器。beautifulSoup “美味的汤,绿色的浓汤” 一个灵活又方便的网页解析库,处理高效,支持多种解析器。利用它就不用编写正则表达式也能方便的实现网页信息的抓取bs4简单使用bs4是一个html的解析工具,根据html的特征和属性来查找节点1 from bs4 import Beautiful...
2019-05-09 20:22:00
173
转载 爬虫基础Requests 之(四) --- Requests模块
什么是RequestsRequests是采用Apache2 Licensed开源协议的HTTP库,用python语言基于urllib编写的。使用 Requests会比urllib更加方便,可以节约我们大量的工作。Requests是python实现的最简单易用的HTTP库。Requests模块 需要单独通过pip安装(pip install Requests)requests功...
2019-05-09 19:51:00
148
转载 爬虫基础urllib 之(三) --- urllib模块
Mac本 需导入ssl1 import ssl2 ssl._create_default_https_context = ssl._create_unverified_contexturllib.request模块 方法从urllib中导入请求模块 编写url1 from urllib import request # 导入request模块...
2019-05-08 20:38:00
222
转载 爬虫项目 --- urllib 和 正则re
from urllib import request,parsefrom time import sleepimport re# 1、【数据的获取】# 封装一个函数,用于将url转化成一个请求对象def request_by(url,page): headers = { 'User-Agent': 'Mozilla/5.0 (Win...
2019-05-08 20:33:00
56
转载 爬虫基础urllib 之(二) --- urllib基础
能爬取什么样的数据 网页文本:如HTML文档,Json格式化文本等 图片: 获取到的是二进制文件,保存为图片格式 视频: 同样是二进制文件 其他: 只要请求到的,都可以获取如何解析数据直接处理Json解析正则表达式处理BeautifulSoup解析处理PyQuery解析处理XPath解析处理抓取的页面数据和浏...
2019-05-08 19:00:00
178
转载 爬虫基础spider 之(一) --- 初识爬虫
爬虫概念 (spider,网络蜘蛛)通过互联网上一个个的网络节点,进行数据的提取、整合以及存储。从而获取我们想要的部分 robots协议 robots协议不是技术层面的协议,只是一个君子协定;首先在爬取一个网站的时候,第一步就是访问这个网站的robots.txt文件,在这个文件中规定了那些东西能爬哪些东西不能爬,爬虫要严格遵守,只爬取允许的内容,不要去爬取不允许的内容...
2019-05-06 19:36:00
169
转载 数据分析 之(一) --- 环境搭建
安装首先打来终端,安装 ipython 。可以在终端 输入 ipython 回车进入:exit() 回车退出1 pip -V2 pip install ipython其次 安装 jupyter1 pip install jupyter 启动程序命令:jupyter notebook这个命令可以启动jupyter的交互服务...
2019-05-05 17:22:00
212
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人