niki__-优快云博客

原创 Spark笔记

Spark是一种由Scala语言开发的快速、通用、可扩展的大数据分析引擎。主要功能主要是用于数据计算HadoopMapReduce由于其设计初衷并不是为了满足循环迭代式数据流处理，因此在多并行运行的数据可复用场景（如：机器学习、图挖掘算法、交互式数据挖掘算法）中存在诸多计算效率等问题。Spark就是在传统的MapReduce 计算框架的基础上，利用其计算过程的优化，从而大大加快了数据分析、挖掘的运行和读写速度，并将计算单元缩小到更适合并行计算和重复使用的RDD计算模型。

2023-04-07 21:43:13 321

原创 Zookeeper笔记

②. server2 启动，首先server2先给自己投一票，因为当前集群已经有两台机器已启动，所以server1，server2会交换选票，交换后发现各自有一票，接下来比较myid 发现server2的myid值 > server2的myid值。③. server3启动，首先自己投自己一票，server1和server2也会投自己一票，然后交换选票发现都一样，接着比较myid 最后server3胜出，此时server3就有3票，同时server3的票数超过半数。如果不是临时节点则是0。

2023-04-07 21:36:06 583

原创 Kafka笔记

副本，为保证集群中的某个节点发生故障时，该节点上的partition数据不丢失，且kafka仍然能够继续工作，kafka提供了副本机制，一个topic的每个分区都有若干个副本，一个leader和若干个follower。leader发生故障之后，会从ISR中选出一个新的leader，之后，为保证多个副本之间的数据一致性，其余的follower会先将各自的log文件高于HW的部分截掉，然后从新的leader同步数据。消息被消费以后，queue中不再有存储，所以消息消费者不可能消费到已经被消费的消息。

2023-04-07 21:27:18 396

原创 Flume笔记

Sink，不断轮询Channel中的事件且批量移除他们，将这些事件批量写入到存储或索引系统，或者被发送到另一个Flume Agent。Channel是线程安全的，可以同时处理几个Source的写入操作和几个Sink的读取操作。Source负责接收数据到Flume Agent,Source组件可以处理各种类型、各种格式的日志数据（avro、thrift、exec、spooling、directory、netcat…Flume1监控文件内容的变动，将监控到的内容分别给到Flume2和Flume3。

2023-04-07 21:20:07 353

原创 Hive笔记

Hive基本概念hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。是由Facebook开源用于解决海量结构化日志的数据统计工具。本质hive的本质是HQL(Hive Query Language，Hive 查询语句)化成MapReduce程序（1） Hive处理的数据存储在HDFS（2） Hive分析数据底层的实现是MapReduce(后面可以换成Spark)（3）执行程序在Yarn上优缺点优点（1）操作接口采用类SQL语法，提

2023-04-07 21:19:19 458

原创 HBase

当region server中的memstore的总大小达到了java_heapsize， hbase.regionserver.global.memstore.size（默认值0.4），hbase.regionserver.global.memstore.size.lower.limit（默认值0.95）属性：hbase.regionserver.handler.count 解释：默认值为30，用于指定RPC监听的数量，可以根据客户端的请求数进行调整，读写请求较多时，增加此值。

2023-04-07 21:15:26 304

原创事件10001，10016，10037

电脑事件10001，10016，10037

2023-02-14 20:22:34 941

原创 Hadoop

hadoop学习笔记

2023-02-14 20:20:35 648 2

原创数据可视化_电商订单+基础图

文章目录数据可视化某电商网站订单数据数据提取数据清洗数据分析数据可视化Matplotlib —> 画图给自己看，用于数据探索画布 —> figure() —> Figure坐标系 —> subplot() —> 一个画布上可以有多个坐标系 —> Axes坐标轴 —> plot() / scatter() / bar() / pie() / hist() / box() …趋势 —> 折线图import matplotib.py

2021-11-30 09:14:29 1264

原创数据分析_三大神器使用笔记整理

文章目录三大神器NumpyPandasMatplotlib引入方式魔法方法和忽略警告忽略警告魔法方法Numpy一维方法一方法二方法三方法四二维方法一方法二方法三方法四方法五通过array把列表处理成数组沿着1轴求平均沿着0轴找最大数组的索引和切片普通索引布尔索引花式索引切片数组对象的方法获取描述性统计信息均值求和排序中位数极值极差方差(variance)和标准差(standard deviation)四分位距离数组类型转化数组的序列化和反序列化数组的调形扁平化数组调形调形补0调形补原数组排序数组的运算数组的

2021-11-30 09:13:21 3344

原创数据分析_表和表的运用

文章目录Kobehrs连接两表/按条件查询删除行/列修改索引重置索引/设置索引笛卡尔积汇总两个表看表的空值看表的尾/首的xx条数据对表里某列做判断对表里某列去重修改表里某个字段往表里添加某个元素表的正则表达式apply 和transform表的排序添加新列表的分组表的求和和分组透视表卖手机卖水果np.random.normal(μ,σ,(n,m))数据的分箱操作作业：2018年北京积分落户数据分析。拉钩招聘分析Kobekobe_df = pd.read_csv('data/Kobe_data.csv',

2021-11-30 09:12:47 1049

原创数据分析_2-numpy

文章目录固定写法1.1 Numpy入门1.1.1 创建数组一维数组二维数组1.1.2 图片(三维)数组的索引和切片普通索引布尔索引花式索引1.1.3 数据对象的方法1. 获取描述性统计信息固定写法import numpy as npimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['STFangsong','STZhongsong']plt.rcParams['axes.unic

2021-11-28 00:45:00 155

原创数据分析_1-Jupyter的使用

数据分析监控数据，发现异常，找出原因，提出建议，写分析报告工具Excel / SQLBI工具---->PowerBI / Tableau / fineBI / 神策Python+SQLPython: Numpy—>Numberical Python Pandas—>Panel Data Set MatplotlibJupyter Notebook - 数据科学Jupyter Lab数据思维和统计思维数据分析方法论Jupyter显示行号

2021-11-27 20:32:47 3373

原创数据可视化8_数据分析的一般流程

数据分析的一般流程1. 提取数据(筛选)2. 整合和重塑3. 数据清洗(缺失值、空值、异常值、格式、量纲、名称)缺失值的处理:dropna() 删除空值fillna() 填充空值<— 均值、中位数、众数isnull() / notnull() 判断空值重复值的处理:duplicated(): 判断是否重复drop_duplicates(): 删除重复值异常值的处理:异常值 / 极端值 / 离群值 —> 1.5倍IQR / 3σ法则极端值和离群值会

2021-11-27 20:31:16 451

原创数据可视化7_股票K线图

文章目录题目要求数据源代码简单版复杂版遗忘的知识1. numpy2. json和python数据转换题目要求excel里的股票数据搞成K线图数据源阿里巴巴2020年股票数据.xlsx代码简单版"""Time:2021/6/12 14:24Author:小李今天敲代码了吗"""from openpyxl import load_workbookfrom pyecharts import options as optsfrom pyecharts.charts import Kline

2021-11-27 20:29:20 923

原创数据可视化6_服务器的基本操作

文章目录服务器os浏览器的同源策略后端跨域Linux基础命令功能键/快捷键命令clear 清楚屏幕输出who / w 谁连接了我whoami 查看当前用户的用户名exit / logout 退出登录shutdown 关机man manual 查看命令的帮助手册cal 8 2000 查看2000年8月的日历date 当前时间history 历史命令查看进程 ps -ef | grep pythontop --类似于Wind

2021-11-27 20:27:34 2575

原创数据可视化5_Vue的使用

Vue的使用<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>动态列表 - Vue.js</title> <style> * { margin: 0; padding: 0; } body { background-color: #000; color: #fff; } #app {

2021-11-21 20:30:30 610

原创数据可视化4_pycharm连接git

文章目录pycharm连接gitflask页面JSpycharm连接gitflask页面前端页面=Tag+CSS+JSTag - 承载内容 - contentCSS - 页面显示 - display - 内嵌样式表(通过标签的style属性设置样式，不推荐使用) - 内部样式表(在head部分通过style标签插入CSS选择器)JS - 交互行为 - behavior浏览器中的JS有三个要素:ECMAScript (ES) — 语法规范BOM – Browse

2021-11-21 20:29:50 662

原创数据可视化3_Hadoop

Hadoop: HDFS:Hadoop Distributed File System MapReduce—>Spark—>PySparkfilter–>map—>reduce数据专员—>Excel—>透视表业务数据分析师 Python/SQL/Hive/Excel数据挖掘工程师 SPSS/Excel/Python/R算法工程师编程+数学+算法+大数据python测试代码性能timeitpython -m timeit 代码cprof

2021-11-21 20:29:16 1569

原创数据可视化2_git仓库的使用

文章目录版本控制----->CASE工具中非常重要的一个工具文本编辑神器：Shell 的常见命令:使用Git：初始配置别的命令远端仓库配置免密范围fatal: refusing to merge unrelated historiesfatal: refusing to merge unrelated histories版本控制----->CASE工具中非常重要的一个工具Computer Aided Software Engineering1990s 锁定模式锁定代码CVS

2021-11-21 20:28:43 715

原创数据可视化1_echarts

文章目录动态界面渲染后端渲染前端渲染EchartsD3.JS最好的选择，echarts和d3.js动态界面动态添加删除水果<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>动态列表 - Vue.js</title> <style> * { margin: 0; p

2021-11-21 20:28:20 991

原创爬虫03-爬取top250的名言评分

# top250的详情信息并写入Excel文件# 1.抓取页面---->HTML源代码--->urllib / requests# response.text ---- 一般取文本方法# response.content.decode('想要的编码') --- 如果乱码# requests是基于urllib做的封装,看官方文档# 2.解析页面---->正则表达式/css选择器/XPath--->re/beautifulsoup4/lxml#

2021-11-21 20:26:33 76

原创爬虫02-Excel文件的操作

将数据写入Excel文件Excel 2007以前的版本---->xls---->xlwt/xlrd 写/读Excel 2007以后的版本---->xlsx—>openpyxl一个工作簿下可以创建多个工作表(worksheet)工作表是二维表，有行有列，列和行交汇的地方叫单元格import reimport timeimport randomimport csvimport bs4import requestsimport xlwt

2021-11-21 20:24:59 122

原创爬虫01-requests的基本用法

文章目录1.发送请求，获取响应2.正则表达式匹配电影名称3. 用CSV保存文件1.发送请求，获取响应# step1:请求地址url = 'https://movie.douban.com/top250'# step2:请求头headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212

2021-11-21 20:24:38 1550 2

原创 Python的魔法方法

Python的魔法方法类的构造、删除：object.__new__(self, ...)object.__init__(self, ...)object.__del__(self)二元操作符：+ object.__add__(self, other)- object.__sub__(self, other)* object.__mul__(self, other)// object.__floordiv__(self, other)/ object.__div__(self, othe

2021-11-21 20:23:48 339

原创 day19_pdf文档操作

回顾继承私有化 __邮件自动发送(看md文档)import osos.listdir(文件夹路径) - 以列表的形式，返回文件夹中所有文件的文件名昨天作业–斗地主发牌"""Time: 2021/5/21 上午9:53Author: 酒坛坛儿Good Good Study, Day Day up !"""import randomclass Poker: """扑克类""" colors = ['♥', '♠', '♦', '♣'] nums = [

2021-11-21 20:23:14 196

原创 day17_面向对象

day17_面向对象回顾1. 正则语法1）匹配类:2）检测类3）匹配次数4) 分组 - () 把一部分作为整体5）分支 - | 正则1|正则2… 只要有一个匹配成功就成功6）转义符号2. re模块新知识1. 类1）定义类2）定义对象(创建对象)3) 构造方法和初始化方法4)属性5) 方法a. 对象方法b. 类方法c. 静态方法作业回顾1. 正则语法1）匹配类:. 多行匹配的时候.不能和\n匹配，单行可以和\n匹配\d \D\s

2021-05-19 18:40:45 105

原创 day16_正则表达式和面向对象

day16_正则表达式和面向对象回顾新知识1. 检测类符号2. 匹配次数1). 多个相同字符串2）. \* --0次或者多次（任意次数）3）. + - 1次或多次（至少一次4). ? - 0次或1次5). {}6). 贪婪和非贪婪3. 分组和分支1) 分组 -()2). 分支3). 转义符号4. re模块1）.compile(正则表达式) - 创建一个正则表达式对象2).匹配类方法a）fullmatchb) matchⅠ)匹配对象.group()Ⅱ)获取匹配结果在原字符中的位置Ⅲ)

2021-05-18 23:25:58 186

原创 day15_json和异常捕获

文章目录周安排回顾文件对象.close()的方式方式1：手动关闭文件方式2:自动关闭文件数据持久化新知识json1. 什么是json数据2. python数和json之间的相互转换1）json转python2) python 转json异常捕获1. 什么是异常2. 异常捕获3. 捕获异常方式1：捕获所有类型的异常方式2：捕获指定类型异常方法3：同时捕获多种异常，针对不同的异常做相同的处理方法4：同时捕获多种异常，然后针对不同的异常做不一样的处理finally - 写遗书5. 抛出异常6. ==正

2021-05-17 21:40:23 461

原创 day14_异常捕获和文件操作

day14_异常捕获和文件操作新知识1.hash1). hash加密的特点a). hash算法生成的摘要不可逆。不能通过密文来获取原文b). 只有相同的数据通过相同的算法得到的摘要才是一致的c). 不管原数据多大，产生的摘要的大小(长度)是一致的2). 生成hash摘要a). 通过算法创建hash对象b). 添加数据补充:二进制和字符串之间的相互转换Ⅰ). 字符串转二进制Ⅱ). 二进制转字符串c.)获取摘要文件操作1. 数据持久化2. 文件操作 - 操作文件的内容1）打开文件2）关闭文件3）操作a

2021-05-15 22:12:04 433

原创 day13_包和模块

包和模块回顾新知识模块1. 什么是模块2 . 怎么在一个模块中使用另一个模块中的内容3.怎么导入模块a). import 模块名b). from 模块名 import 变量1,变量2,变量3…c). from 模块名 import *d). 重命名e). 给变量重命名4.导入模块的原理5.重复导入包1. 什么是包2. 包的使用回顾迭代器next()生成器def func1(): yield 100hen1 = func1()hen2 = func1()装饰器def 装

2021-05-15 22:11:25 126

原创 day12_装饰器迭代器生成器递归

文章目录回顾新知识装饰器递归函数迭代器和生成器1. 迭代器1）什么是迭代器（iter)2）创建迭代器3)获取迭代器中的元素a) 获取单个元素:next(迭代器)b）遍历2.生成器1）概念2）创建生成器3）确定生成器的元素 - 生成器可以创造的数据4）生成器产生数据的原理练习：写一个创建学生学号的生成器，要求产生的学号前缀是python，后面是指定范围的值。3.装饰器1）什么是装饰器2）无参装饰器的实现方法4.递归函数作业回顾函数就是变量定义函数就是定义类型是function的变量，函数名就

2021-05-13 19:32:58 116

原创 day11_实参高阶函数

day11_实参高阶函数1.函数匿名2.函数就是变量3.实参高阶函数的应用1) max和min2) sorted(序列，key= 序列)3) map(函数,序列)4) map(函数，序列1，序列2)5) reduce(函数,序列,初始值)作业1.函数匿名没有函数名的函数函数名 = lambda 形参列表:返回值相当于def 函数名(形参列表): return 返回值sum1 = lambda num1,num2:num1+num2sum1 = lambda num1,num2:nu

2021-05-12 19:47:22 298

原创 day10_函数进阶

文章目录回顾新知识1.位置参数和关键字参数1）位置参数:2）关键字参数:3）位置参数和关键字参数混用：2.参数默认值3. 参数类型说明1）无默认参数的类型说明 - :类型名2）有默认值的参数，默认值的类型就是参数对应的类型4. 不定长参数1）带*的不定长参数:在某个形参前加\*，那么这个形参就是一个不定长参数，它可以接受任意多个实参a)带*的参数本质就是一个元组，对应的实参是元组中的元素b)定长参数在*的不定长参数前，定长和不定长都适用位置参数传参c)定长在\*的不定长参数后，*后面的定长参数必须

2021-05-11 20:43:10 161

原创 day09_格式字符串

格式字符串周安排1. 字符串、函数2. 函数基础3. 函数进阶（基础、实参高阶函数、装饰器）4. 迭代器和生成器5. 模块：异常捕获、文件操作6. 面向对象：正则、自动化办公回顾1.什么是字符串(str)2.不可变，有序3.字符:'abc' ->元素:'a'、'b'、'c'新知识1.格式化字符串:格式占位符1）%s可以使用任意类型的数据填充2）格式化字符串：f-string2.格式化字符串 f-string1){表达式:.Nf} - 控制保留N位小数2){表达式:,}3) {表达式:.N%}3.

2021-05-10 21:27:21 138

原创 day8-字符串

字符串总结字符串什么是字符串1）空串2) 字符串的容器标志2.字符1）普通字符 - 在字符串中表示符号本身的字符2）转义字符 - 使用\和其他符号一起来表示特殊功能和意义的字符3) 阻止转义 - 让字符串中所有的转义字符功能消失(让一个字符串中的每一个符号都是表示符号)4) 转义字符 - 编码字符3.编码值 - 字符编码1) 编码值 - 计算机在存储符号的时候其实存的是这个符号对应的固定数字。这个数字就是符号对应的编码值2) 编码表 - 将字符和数字一一对应的表作业总结字符串什么是字符串字符串是

2021-05-09 19:56:16 126

原创 day8-字符串作业

输入一个字符串，打印所有奇数位上的字符(下标是1，3，5，7…位上的字符)例如: 输入**'abcd1234 ’ ** 输出**‘bd24’**str1 = input('请输入字符串:')new_str=''len_str1 = len(str1)for x in range(1,len_str1,2): new_str +=str1[x]print(new_str)输入用户名，判断用户名是否合法(用户名长度6~10位)str1 = input()if 6<=l..

2021-05-09 19:42:39 121

原创 day7_字典和集合

字典和集合回顾1 .相关函数2 .相关方法3 .推导式4 .元组字典1.什么是字典(dict)1) 空字典2）字典无序3)键是不可变的4)键是唯一的2. 增删改查1）查 - 获取值a) 查单个b）遍历c) 增、改d)删Ⅰ. del 字典[键] - 删除字典中指定键对应的键值对Ⅱ.字典.pop(键) - 取出字典中指定键对应的值3.字典的相关操作和方法1).运算符2).in 和 not in3).相关函数4)字典相关方法a)字典.clear()b)字典.copy()c)keys、values、

2021-05-07 20:05:38 921

原创 day6_元组

元组和列表回顾1.变量2.运算符3. if分支结构4.循环结构1. for2. while5.列表(list)新知识1.序列相关函数a) .max(序列) - 获取序列中最大的元素b) .min(序列) - 获取序列中最小的元素c) .sum(序列) - 求序列中所有元素的和d) .len(序列) - 求序列中元素的个数e) .sorted(序列) - 序列从小到大排序，返回排序后的新列表e) .reversed(序列) - 将序列中的元素倒序，产生一个新的迭代器（序列）f) .list(序列) - 将序列

2021-05-06 20:23:11 246

原创 ModuleNotFoundError: No module named ‘RentHouse_PricePredict‘

因为我在predict_train中用了manage.py中的MyEncoder,但是manage.py和报错的predict_realdata.py不在同一目录下解决办法：import syssys.path.append("/RentHouse_PricePredict/")

2021-05-03 14:35:31 136

空空如也

空空如也