自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 收藏
  • 关注

转载 python:图片拼接

python:图片拼接 一:尺寸相同的图片拼接import osfrom PIL import Imagewidth_i = 200height_i = 200row_max = 3line_max = 3all_path...

2019-09-28 21:38:00 351

转载 爬虫技术:从sougou网站访问微信公众号的过程

爬虫技术:从sougou网站访问微信公众号的过程 一:分析过程:fidder + chrome开发者工具1:输入nba跳转的页面,每页显示10条相关公众号的信息2:分析网站得到每条标题的详情页链接地址在:3,请求上图中的url,会返回一段js代码...

2019-09-28 16:08:00 306

转载 python数据分析第二版:数据加载,存储和格式

python数据分析第二版:数据加载,存储和格式 一:读取数据的函数 posted on 2019-09-27 20:38张京墨 阅读(...) 评...

2019-09-27 20:38:00 201

转载 爬虫技术:代理池的维护

爬虫技术:代理池的维护 一:代理池维护的模块  1. 抓取模块Crawl,负责从代理网站上抓取代理 ---------------抓取模块  2. 获取代理Getter,负责获取抓取模块返回的值,并判断是否超过存储模块的最大容量。--------------...

2019-09-26 15:57:00 261

转载 python数据分析第二版:pandas

python数据分析第二版:pandas 一:pandas两种数据结构:series和dataframe  series:索引(索引自动生成)和标签(人为定义)组成---返回一个对象obj = pd.Series([1,2,3,4])obj#...

2019-09-24 21:39:00 314

转载 爬虫技术:数据处理josn和pickle模块

爬虫技术:数据处理josn和pickle模块 一:json模块json模块的作用就是讲json字符串("{"a":1,"b":1}")和python能够识别的字典进行相互转换。import jsonimport picklea = """{'...

2019-09-24 14:07:00 181

转载 python数据分析第二版:numpy

python数据分析第二版:numpy 一:Numpy# 数组和列表的效率问题,谁优谁劣# 1.循环遍历import numpy as npimport timemy_arr = np.arange(1000000)my_list =...

2019-09-21 18:57:00 427

转载 爬虫技术:爬取淘宝美食数据:崔庆才思路

爬虫技术:爬取淘宝美食数据:崔庆才思路 # TODO selenium已经被检测出来import randomimport reimport timefrom selenium import webdriverfrom selenium...

2019-09-21 18:19:00 359

转载 机器学习:2.NPL自然语言处理

机器学习:2.NPL自然语言处理 1. 词带的简单解释:  每一个词出现了多少次,缺点是不知道顺序2.seq2seq自然语言处理的核心  RNN:    一对一:输入一个,输出一个    一对多:输入一个,输出多个    多对一:输入多个...

2019-09-19 20:25:00 677

转载 爬虫技术:爬取今日头条数据-崔庆才思路

爬虫技术:爬取今日头条数据-崔庆才思路 一. urllib库中将字典转化为url的查询参数二.请求异常的处理,以及内部的判断逻辑  1.返回的json数据为空:原因是requests的请求对象没有加请求头和cookiesimport requests...

2019-09-19 17:18:00 1563

转载 爬虫技术:cookies池的维护

爬虫技术:cookies池的维护 一:为什么要维护cookie  1.登录才能爬取内容  2.爬取频繁会被封号。  3.需要维护多个账号的cookie,实现大规模抓取二:cookies的要求  1.自动登录更新  2.定期筛选验证  3....

2019-09-18 17:04:00 368

转载 python基础面试题总结

python基础面试题总结 1.python中深拷贝和浅拷贝的理解  自己理解:浅拷贝,只是拷贝引用,不开辟新的空间存储拷贝内容。       深拷贝,就是在内存中,开辟一个新的内存地址,将拷贝内容放到新的地址中去。  验证:对于数字,字符串,元祖这种不...

2019-09-17 19:14:00 115

转载 docker:python与docker

docker:python与docker 一:环境准备  pycharm:专业版(windows)  docker ce 免费版(ubantu16.04)  os:  os:防火墙二:开发流程  pycharm中开发环境搭建的工作原理:...

2019-09-12 16:18:00 172

转载 机器学习:1.K近邻算法

机器学习:1.K近邻算法 1.简单案例:预测男女,根据身高,体重,鞋码import numpy as npimport matplotlib import sklearn from skleran.neighbors import KNeighb...

2019-09-11 20:14:00 348

转载 面试题:总结

面试题:总结 1. 进程和线程的区别  线程是运行在进程里面的,进程可以包含多个线程,一个线程只能属于一个进程。  线程会存在资源竞争的问题,因为数据共享是用的全局变量,进程之间的数据共享用的是内存。  进程消耗资源大,多用于计算密集型,线程消耗资源小,...

2019-09-08 15:30:00 88

转载 爬虫技术:去重知识点

爬虫技术:去重知识点 1. 去重的场景  url去重:防止发送重复请求  数据文本去重:防止储存重复数据2.数据去重的原理  什么类型的数据:  重复的依据是什么:  例如: data1 = ["123",123,"456","qwe","...

2019-09-07 23:07:00 608

转载 爬虫技术:scrapy 知识点一

爬虫技术:scrapy 知识点一 ---恢复内容开始---1.scrapy框架  每一步的解释:step1:引擎从爬虫器获取要爬行的初始请求。step2:引擎在调度程序中调度请求,引擎把这个初始请求传递给调度器,并向调度器索要下一个请求。st...

2019-09-05 16:18:00 1558

转载 爬虫技术:分布式

爬虫技术:分布式 1.简单的分布式流程图分布式:import multiprocessingimport multiprocessing.managers # 进程管理器import random,time# 分布式进程task...

2019-09-01 21:29:00 142

转载 爬虫技术:携程爬虫阳光问政数据

爬虫技术:携程爬虫阳光问政数据 携程爬取阳光问帖子:进行了简单的数据存储,数据量共145226条,爬取时间为:3.65小时,实际时间感觉要多于统计时间。代码如下:import timeimport geventimport reimport ...

2019-09-01 20:44:00 192

转载 docker:docker的基本了解

docker:docker的基本了解 1.什么是docker  简单的理解:docker相当于vmvare,容器相当于多个虚拟机,vmvare上可以运行ubantu16.04的虚拟机,也可以运行centos虚拟机,还可以运行redhat虚拟机。  容器:完全...

2019-09-01 18:48:00 138

转载 数据库与缓存:3.mongodb

数据库与缓存:3.mongodb 1. mongodb是什么?NoSQL 非关系型数据库,主要用于数据的海量存储。分为server数据存储端和client数据操作端。关系型与非关系型数据库的区别? sql:数据库--表--数据 nosql:数据库...

2019-09-01 16:13:00 342

转载 数据库与缓存:3.mongodb的基本知识

数据库与缓存:3.mongodb的基本知识 1. mongodb是什么?NoSQL 非关系型数据库,主要用于数据的海量存储。分为server数据存储端和client数据操作端。1.1 关系型与非关系型数据库的区别?1.sql:数据库--表--数据nosql...

2019-08-29 19:48:00 109

转载 数据库与缓存:2.Redis数据库的基本知识

数据库与缓存:2.Redis数据库的基本知识 1.属于什么类型的数据库not only sql 非关系型数据库,与传统的关系型数据库不同,存储形式都是kv形式。2.特点几乎不支持事务,key-value形式存储,支持队列和缓存(可以设置数据的过期时间...

2019-08-25 20:26:00 183

转载 python爬虫:2.每天爬取数据量是多少?

python爬虫:2.每天爬取数据量是多少? 带宽网站阈值单机分布式几百万 posted on 2019-08-16 16:59张京墨 阅读(...

2019-08-16 16:59:00 1701

转载 python基础:11.列表对象属性排序

python基础:11.列表对象属性排序 def __lt__def __gt__def __repr__ posted on 2019-08-16 1...

2019-08-16 15:09:00 183

转载 python基础:10.多线程装饰器模式下的单例模式

python基础:10.多线程装饰器模式下的单例模式 withdef __enter__def __close__闭包:装饰器:闭包的延迟绑定:单例模式的应用: ...

2019-08-16 14:58:00 256

转载 python爬虫 1.自己定义类实现scrapy框架的基本功能

python爬虫 1.自己定义类实现scrapy框架的基本功能 1.定义调度器,引擎,下载器,爬虫器,管道器# 调度器,下载器,爬虫器,引擎,管道类class Scheduler(): """调度器类""" def __init_...

2019-08-15 19:17:00 188

转载 python基础:9.深拷贝存储双字典

python基础:9.深拷贝存储双字典 # 双层循环temp = list()for i in range(1,100):  item = {}  itme["a"] = i  for j in range(1,100):    item["...

2019-08-11 10:09:00 80

转载 python基础:8.正则表达式

python基础:8.正则表达式 1.概念正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。re模块的常见方法:1. re....

2019-08-03 21:04:00 77

转载 python基础:7.求结果

python基础:7.求结果 求结果:v1 = 1 or 3
v2 = 1 and 3
v3 = 0 and 2 and 1v4 = 0 and 2 or 1v5 = 0 and 2 or 1 or 4v6 = 0 or False and ...

2019-08-02 11:55:00 359

转载 前端框架和其他:1.谈谈你对http协议的认识。

前端框架和其他:1.谈谈你对http协议的认识。 1.http是一种网络数据传输协议 hype text transfer protocol-超文本传输协议2.传输什么:超文本(html文档)3.协议遵守方,浏览器和服务器4.一般的传输流程是什么样的,...

2019-08-01 16:13:00 241

转载 python基础:6.python最大的递归层数

python基础:6.python最大的递归层数 python解释器版本:3.7def recursion(n): print(n) n += 1 recursion(n)recursion(1)# 996...

2019-08-01 14:50:00 265

转载 python基础:5.请编写一个函数实现将IP地址转换成一个整数。

python基础:5.请编写一个函数实现将IP地址转换成一个整数。 如 10.3.9.12 转换规则为: 10 00001010
 3 00000011
 9 ...

2019-08-01 11:51:00 1283

转载 网路编程和并发:2.什么是C/S和B/S架构?

网路编程和并发:2.什么是C/S和B/S架构? 1.C/S 架构客户端和服务器之间的架构。Client-Server也称客户机服务器模型。在Client/Server结构的系统中,应用程序分为客户端和服务器两点部分,客户端为每个用户所有,服务器由多个用户...

2019-08-01 10:20:00 242

转载 python基础:4.请至少列举5个 PEP8 规范(越多越好)。

python基础:4.请至少列举5个 PEP8 规范(越多越好)。 1.变量命名规则:  不能与关键字重名,必须以数字字母下划线组成,且不能以数字开头2.导包规则:  # 推荐这样写  import random  import sys  #...

2019-07-31 09:43:00 729

转载 python基础:3.高级运算符

python基础:3.高级运算符 1.异或运算  十进制的异或运算,先转成二进制进行异或,按位进行比较,对应位置相同则为0,对应位置不同则为1,,再从异或结果转成十进制。  python中:  1 ^ 1 = 0   1 ^ 2 = 3  1...

2019-07-30 20:53:00 230

转载 python基础:2.二进制

python基础:2.二进制 1.二进制:计算机存储0,1的一种方式,规则是逢2进1。一个数字在计算机存储的是一个字节,即8个bit,每个bit要么存储0,要么存储1.0000 0000 (二进制)表示 0(十进制), 0000 0001 (二进制)表示1(...

2019-07-30 19:05:00 407

转载 数据库与缓存:1.列举常见的关系型数据库和非关系型都有那些?

数据库与缓存:1.列举常见的关系型数据库和非关系型都有那些? 1.关系型数据库 Relational Databasemysql、oracle、sqlserver关系型数据库的特点:1.1 存储方式:表格1.2 存储结构:先根据字段建立表---再用进...

2019-07-30 18:23:00 713

转载 python基础:1.位、字节、字的关系

python基础:1.位、字节、字的关系 1.位,简称b,或bit,比特,数据存储的最小单位。每个二进制数字0或1就是一个位(bit),网络通信常用bps,bit per second ,每秒传输多少位2.字节,简称byte, 1byte = 8b,电脑下载或网...

2019-07-30 18:21:00 1541

转载 网络编程和并发:1.简述 OSI 七层协议

网络编程和并发:1.简述 OSI 七层协议 1. 概念Open System Interconnection : 开放互联系统2. 图示注:图片来源:https://www.cnblogs.com/maybe2030/p/4781555.html#_...

2019-07-30 16:09:00 141

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除