- 博客(40)
- 收藏
- 关注
转载 python:图片拼接
python:图片拼接 一:尺寸相同的图片拼接import osfrom PIL import Imagewidth_i = 200height_i = 200row_max = 3line_max = 3all_path...
2019-09-28 21:38:00
351
转载 爬虫技术:从sougou网站访问微信公众号的过程
爬虫技术:从sougou网站访问微信公众号的过程 一:分析过程:fidder + chrome开发者工具1:输入nba跳转的页面,每页显示10条相关公众号的信息2:分析网站得到每条标题的详情页链接地址在:3,请求上图中的url,会返回一段js代码...
2019-09-28 16:08:00
306
转载 python数据分析第二版:数据加载,存储和格式
python数据分析第二版:数据加载,存储和格式 一:读取数据的函数 posted on 2019-09-27 20:38张京墨 阅读(...) 评...
2019-09-27 20:38:00
201
转载 爬虫技术:代理池的维护
爬虫技术:代理池的维护 一:代理池维护的模块 1. 抓取模块Crawl,负责从代理网站上抓取代理 ---------------抓取模块 2. 获取代理Getter,负责获取抓取模块返回的值,并判断是否超过存储模块的最大容量。--------------...
2019-09-26 15:57:00
261
转载 python数据分析第二版:pandas
python数据分析第二版:pandas 一:pandas两种数据结构:series和dataframe series:索引(索引自动生成)和标签(人为定义)组成---返回一个对象obj = pd.Series([1,2,3,4])obj#...
2019-09-24 21:39:00
314
转载 爬虫技术:数据处理josn和pickle模块
爬虫技术:数据处理josn和pickle模块 一:json模块json模块的作用就是讲json字符串("{"a":1,"b":1}")和python能够识别的字典进行相互转换。import jsonimport picklea = """{'...
2019-09-24 14:07:00
181
转载 python数据分析第二版:numpy
python数据分析第二版:numpy 一:Numpy# 数组和列表的效率问题,谁优谁劣# 1.循环遍历import numpy as npimport timemy_arr = np.arange(1000000)my_list =...
2019-09-21 18:57:00
427
转载 爬虫技术:爬取淘宝美食数据:崔庆才思路
爬虫技术:爬取淘宝美食数据:崔庆才思路 # TODO selenium已经被检测出来import randomimport reimport timefrom selenium import webdriverfrom selenium...
2019-09-21 18:19:00
359
转载 机器学习:2.NPL自然语言处理
机器学习:2.NPL自然语言处理 1. 词带的简单解释: 每一个词出现了多少次,缺点是不知道顺序2.seq2seq自然语言处理的核心 RNN: 一对一:输入一个,输出一个 一对多:输入一个,输出多个 多对一:输入多个...
2019-09-19 20:25:00
677
转载 爬虫技术:爬取今日头条数据-崔庆才思路
爬虫技术:爬取今日头条数据-崔庆才思路 一. urllib库中将字典转化为url的查询参数二.请求异常的处理,以及内部的判断逻辑 1.返回的json数据为空:原因是requests的请求对象没有加请求头和cookiesimport requests...
2019-09-19 17:18:00
1563
转载 爬虫技术:cookies池的维护
爬虫技术:cookies池的维护 一:为什么要维护cookie 1.登录才能爬取内容 2.爬取频繁会被封号。 3.需要维护多个账号的cookie,实现大规模抓取二:cookies的要求 1.自动登录更新 2.定期筛选验证 3....
2019-09-18 17:04:00
368
转载 python基础面试题总结
python基础面试题总结 1.python中深拷贝和浅拷贝的理解 自己理解:浅拷贝,只是拷贝引用,不开辟新的空间存储拷贝内容。 深拷贝,就是在内存中,开辟一个新的内存地址,将拷贝内容放到新的地址中去。 验证:对于数字,字符串,元祖这种不...
2019-09-17 19:14:00
115
转载 docker:python与docker
docker:python与docker 一:环境准备 pycharm:专业版(windows) docker ce 免费版(ubantu16.04) os: os:防火墙二:开发流程 pycharm中开发环境搭建的工作原理:...
2019-09-12 16:18:00
172
转载 机器学习:1.K近邻算法
机器学习:1.K近邻算法 1.简单案例:预测男女,根据身高,体重,鞋码import numpy as npimport matplotlib import sklearn from skleran.neighbors import KNeighb...
2019-09-11 20:14:00
348
转载 面试题:总结
面试题:总结 1. 进程和线程的区别 线程是运行在进程里面的,进程可以包含多个线程,一个线程只能属于一个进程。 线程会存在资源竞争的问题,因为数据共享是用的全局变量,进程之间的数据共享用的是内存。 进程消耗资源大,多用于计算密集型,线程消耗资源小,...
2019-09-08 15:30:00
88
转载 爬虫技术:去重知识点
爬虫技术:去重知识点 1. 去重的场景 url去重:防止发送重复请求 数据文本去重:防止储存重复数据2.数据去重的原理 什么类型的数据: 重复的依据是什么: 例如: data1 = ["123",123,"456","qwe","...
2019-09-07 23:07:00
608
转载 爬虫技术:scrapy 知识点一
爬虫技术:scrapy 知识点一 ---恢复内容开始---1.scrapy框架 每一步的解释:step1:引擎从爬虫器获取要爬行的初始请求。step2:引擎在调度程序中调度请求,引擎把这个初始请求传递给调度器,并向调度器索要下一个请求。st...
2019-09-05 16:18:00
1558
转载 爬虫技术:分布式
爬虫技术:分布式 1.简单的分布式流程图分布式:import multiprocessingimport multiprocessing.managers # 进程管理器import random,time# 分布式进程task...
2019-09-01 21:29:00
142
转载 爬虫技术:携程爬虫阳光问政数据
爬虫技术:携程爬虫阳光问政数据 携程爬取阳光问帖子:进行了简单的数据存储,数据量共145226条,爬取时间为:3.65小时,实际时间感觉要多于统计时间。代码如下:import timeimport geventimport reimport ...
2019-09-01 20:44:00
192
转载 docker:docker的基本了解
docker:docker的基本了解 1.什么是docker 简单的理解:docker相当于vmvare,容器相当于多个虚拟机,vmvare上可以运行ubantu16.04的虚拟机,也可以运行centos虚拟机,还可以运行redhat虚拟机。 容器:完全...
2019-09-01 18:48:00
138
转载 数据库与缓存:3.mongodb
数据库与缓存:3.mongodb 1. mongodb是什么?NoSQL 非关系型数据库,主要用于数据的海量存储。分为server数据存储端和client数据操作端。关系型与非关系型数据库的区别? sql:数据库--表--数据 nosql:数据库...
2019-09-01 16:13:00
342
转载 数据库与缓存:3.mongodb的基本知识
数据库与缓存:3.mongodb的基本知识 1. mongodb是什么?NoSQL 非关系型数据库,主要用于数据的海量存储。分为server数据存储端和client数据操作端。1.1 关系型与非关系型数据库的区别?1.sql:数据库--表--数据nosql...
2019-08-29 19:48:00
109
转载 数据库与缓存:2.Redis数据库的基本知识
数据库与缓存:2.Redis数据库的基本知识 1.属于什么类型的数据库not only sql 非关系型数据库,与传统的关系型数据库不同,存储形式都是kv形式。2.特点几乎不支持事务,key-value形式存储,支持队列和缓存(可以设置数据的过期时间...
2019-08-25 20:26:00
183
转载 python爬虫:2.每天爬取数据量是多少?
python爬虫:2.每天爬取数据量是多少? 带宽网站阈值单机分布式几百万 posted on 2019-08-16 16:59张京墨 阅读(...
2019-08-16 16:59:00
1701
转载 python基础:11.列表对象属性排序
python基础:11.列表对象属性排序 def __lt__def __gt__def __repr__ posted on 2019-08-16 1...
2019-08-16 15:09:00
183
转载 python基础:10.多线程装饰器模式下的单例模式
python基础:10.多线程装饰器模式下的单例模式 withdef __enter__def __close__闭包:装饰器:闭包的延迟绑定:单例模式的应用: ...
2019-08-16 14:58:00
256
转载 python爬虫 1.自己定义类实现scrapy框架的基本功能
python爬虫 1.自己定义类实现scrapy框架的基本功能 1.定义调度器,引擎,下载器,爬虫器,管道器# 调度器,下载器,爬虫器,引擎,管道类class Scheduler(): """调度器类""" def __init_...
2019-08-15 19:17:00
188
转载 python基础:9.深拷贝存储双字典
python基础:9.深拷贝存储双字典 # 双层循环temp = list()for i in range(1,100): item = {} itme["a"] = i for j in range(1,100): item["...
2019-08-11 10:09:00
80
转载 python基础:8.正则表达式
python基础:8.正则表达式 1.概念正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。re模块的常见方法:1. re....
2019-08-03 21:04:00
77
转载 python基础:7.求结果
python基础:7.求结果 求结果:v1 = 1 or 3 v2 = 1 and 3 v3 = 0 and 2 and 1v4 = 0 and 2 or 1v5 = 0 and 2 or 1 or 4v6 = 0 or False and ...
2019-08-02 11:55:00
359
转载 前端框架和其他:1.谈谈你对http协议的认识。
前端框架和其他:1.谈谈你对http协议的认识。 1.http是一种网络数据传输协议 hype text transfer protocol-超文本传输协议2.传输什么:超文本(html文档)3.协议遵守方,浏览器和服务器4.一般的传输流程是什么样的,...
2019-08-01 16:13:00
241
转载 python基础:6.python最大的递归层数
python基础:6.python最大的递归层数 python解释器版本:3.7def recursion(n): print(n) n += 1 recursion(n)recursion(1)# 996...
2019-08-01 14:50:00
265
转载 python基础:5.请编写一个函数实现将IP地址转换成一个整数。
python基础:5.请编写一个函数实现将IP地址转换成一个整数。 如 10.3.9.12 转换规则为: 10 00001010 3 00000011 9 ...
2019-08-01 11:51:00
1283
转载 网路编程和并发:2.什么是C/S和B/S架构?
网路编程和并发:2.什么是C/S和B/S架构? 1.C/S 架构客户端和服务器之间的架构。Client-Server也称客户机服务器模型。在Client/Server结构的系统中,应用程序分为客户端和服务器两点部分,客户端为每个用户所有,服务器由多个用户...
2019-08-01 10:20:00
242
转载 python基础:4.请至少列举5个 PEP8 规范(越多越好)。
python基础:4.请至少列举5个 PEP8 规范(越多越好)。 1.变量命名规则: 不能与关键字重名,必须以数字字母下划线组成,且不能以数字开头2.导包规则: # 推荐这样写 import random import sys #...
2019-07-31 09:43:00
729
转载 python基础:3.高级运算符
python基础:3.高级运算符 1.异或运算 十进制的异或运算,先转成二进制进行异或,按位进行比较,对应位置相同则为0,对应位置不同则为1,,再从异或结果转成十进制。 python中: 1 ^ 1 = 0 1 ^ 2 = 3 1...
2019-07-30 20:53:00
230
转载 python基础:2.二进制
python基础:2.二进制 1.二进制:计算机存储0,1的一种方式,规则是逢2进1。一个数字在计算机存储的是一个字节,即8个bit,每个bit要么存储0,要么存储1.0000 0000 (二进制)表示 0(十进制), 0000 0001 (二进制)表示1(...
2019-07-30 19:05:00
407
转载 数据库与缓存:1.列举常见的关系型数据库和非关系型都有那些?
数据库与缓存:1.列举常见的关系型数据库和非关系型都有那些? 1.关系型数据库 Relational Databasemysql、oracle、sqlserver关系型数据库的特点:1.1 存储方式:表格1.2 存储结构:先根据字段建立表---再用进...
2019-07-30 18:23:00
713
转载 python基础:1.位、字节、字的关系
python基础:1.位、字节、字的关系 1.位,简称b,或bit,比特,数据存储的最小单位。每个二进制数字0或1就是一个位(bit),网络通信常用bps,bit per second ,每秒传输多少位2.字节,简称byte, 1byte = 8b,电脑下载或网...
2019-07-30 18:21:00
1541
转载 网络编程和并发:1.简述 OSI 七层协议
网络编程和并发:1.简述 OSI 七层协议 1. 概念Open System Interconnection : 开放互联系统2. 图示注:图片来源:https://www.cnblogs.com/maybe2030/p/4781555.html#_...
2019-07-30 16:09:00
141
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人