- 博客(39)
- 收藏
- 关注
原创 notepad 找回未保存的文件
加粗样式目录:C:\Users\Administrator\AppData\Roaming\Notepad++\backup
2021-08-17 09:24:41
4897
3
原创 KMeans算法初识
认识KMeansKMeans是聚类算法,属于无监督学习,在不知数据所属类别及数据量的情况下,依据数据自身所含的特点对数据进行聚类,实现步骤==1.==首先确定一个K值,即我们希望将数据集,一般为数据量的平方根,2. 从数据集中随机选择k个数据点作为质心。3. 对数据集中的每个点计算其与每个执行的距离(如欧式距离),离哪个质心越近,就将其划分到质心所属的集合4. 将所有的数据集归好集合,一共有k个集合,然后重新计算每个集合的质心5. 如果计算出来的质心和原来的质心距离小于某个设置的阈值(表示重新
2021-04-14 01:05:48
559
原创 对虚拟机磁盘进行扩容
最近在使用java从Kafka消费数据,再将数据导入HBase,之中的数据量在3千多万条,进行数据写入HBase时,发现HBase的HRegionServer服务总是会挂掉,非常纳闷,看到网上说可能是因为虚拟机的磁盘空间不足结果查了一下,发现已经占用了80%多,确实不足,下面对磁盘容量进行扩容 因为其中/dev/mapper/centos-home的空间为24G,但是实际只用的不到1G,所以我的做法是将其压缩出20G,将其添加到centos-root,具体实现步骤如下:可以先查看自己的目录空间使用
2021-04-10 23:51:29
325
原创 Kafka高吞吐的实现
Kafka高吞吐的实现顺序读写零拷贝顺序读写kafka的消息是不断追加到文件中的,这个特点使得kafka可以充分利用磁盘的顺序读写性能,什么是顺序读写,顺序读写不需要磁盘磁头来回的寻道,,只需要很少的扇区寻找时间,所以速度远大于随机读写(hbase底层就是随机读写)零拷贝这里要提及一些文件系统方面的操作流程,例如用户要使用java程序将读取D盘的一个文件,并将文件发送到E盘,首先文件肯定是会先从磁盘被加载到内存,让后存储在用户定义的一个存储空间(字节数组),这才是读的过程,然后这个存储空间的内容会被
2021-03-30 09:36:07
139
原创 一招教你解决虚拟机常用命令找不到的报错问题
一般出现这种情况都是配置的环境变量出现问题,认真检查自己配置的环境是否存在拼写错误输入命令: export PATH=/usr/bin:/usr/sbin:/bin:/sbin:/usr/X11R6/bin再次输入: vi /etc/profile
2021-03-19 14:24:22
11012
原创 IDEA和PyCharm简单设置
一、 通过鼠标滚轮+ctrl键调整显示字体大小二、开启自动导包三、显示方法的分隔符当方法太多时不容易看,在方法之间用一条横线分割四、多行显示文件当打开多个文件超过上限时,会自动隐藏,这个设置会将文件显示在类似于下图的效果:打开的文件都会显示在顶部五、设置注释点开可以根据自己的喜好设置六、设置工程文本七、设置文件编码八、设置使用Eclipse快捷键九、调整字体字体,颜色,行间距十、添加maven依赖...
2021-03-09 00:33:41
1172
原创 谈谈数仓
了解数仓什么是数仓数仓的分层ODS(近源层):Operation Data SourceDW:DataWarehouseDWD(数据明细层):DataWarehouseDetailDWS(数据服务层):DataWarehouseServiceDM(数据集市):DataMarket什么是数仓官方:面向主题的,集成的,随时间变化的,但信息本身是相对稳定的数据集面向主题:数据仓库的设计和实现围绕主题展开集成的:所有与数据仓库主题相关的数据(业务数据库,业务日志),都会集中存放在数据仓库随时间变化的:最新
2021-03-04 00:27:35
215
3
原创 python入门
python入门python简介python基础①:python的注释方法pytho变量的特点:③:常见的内置函数④:数值类型的操作符列表listlist的特点元祖元祖的特点python简介Python 是一种解释型、面向对象、动态数据类型的高级程序设计语言。python基础①:python的注释方法单行注释:#多行注释:‘‘‘xxxxxxxx’’’或者“““xxxxxx”””②:python变量名命名原则1):以字母或_开头2):变量名以数字,字母,_组成3):变量名大小写敏感4)
2021-01-26 00:50:24
152
原创 分布式发布-订阅消息系统--Kafka简介
Flume架构Flume简介Flume架构SourceSinkChannelFlume简介①:Flume用于讲多种来源的日志以流 的方式传送至 Hadop或者其他地方②:Flume拥有基于数据流上的简单灵活架构,支持容错,故障转移③:一种可靠,可用的高效分部式数据收集服务Flume架构基本组件:Client:客户端,数据产生的地方,如Web服务器Event:事件,指通过Agent传输的单个数据包,如日志数据通常对用一行数据Agent:代理,一个独立的JVM进程Agent包括三个组件:
2021-01-18 22:41:41
452
原创 Flume架构
分布式发布-订阅消息系统--Kafka简介一、什么是Kafka一、什么是Kafka①:基于大数据的分布式(多个Patition)消息duilie②:基于发布订阅模式(一个发布者Producer:多个Consumer)③:一类消息一个Topic④:借助zookeeper实现集群管理...
2021-01-16 01:05:29
183
原创 java连接Hive
java连接Hive一、BaseConfig类二、BaseDao类三、Result类一、BaseConfig类import java.io.FileReader;import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException;import java.util.Properties;import java.util.regex.Matcher;import java.util.rege
2021-01-09 23:21:35
1783
1
原创 Java连接mysql
Java连接各种数据源一、Java连接mysql二、Java连接hive三、Java连接HBase一、Java连接mysql二、Java连接hive三、Java连接HBase
2021-01-09 23:17:47
151
原创 Spark连接各种数据源
Spark连接各种数据源一、Spark连接mysql二、Spark连接Hive一、Spark连接mysqlimport java.util.Propertiesimport org.apache.spark.sql.SparkSessionobject ConnectMysql { /** * spark操作mysql * 1、首先将拷贝mysql-connector-java.5.1.38.jar驱动文件到spark的jars目录下 * */ def
2021-01-09 16:50:55
1160
原创 Scala中集合Array的方法
以数组为例测试Scala函数==查找Scala中数组的方法: ==1、可以在电脑的DOS窗口输入:scala2、创建一个数据组:var arr01=Array.range(1,10)3、输入:arr02.4、点击Tab键首先声明四个测试数据:第一个: var arr01 = Array(1,2,3,4,5,6,7,8,9) 等同于: var arr02:Array[Int]=Array(1,2,3,4,5,6,7,8,9) 等同于: var arr03=Array.range(1,
2020-12-25 11:38:49
786
原创 Scala基本介绍
一、定长数组的创建使用创建1.直接初始化一个数组:(创建时直接赋值)var arr01 = Array(1,2,3) 数据类型确定为Int,这种方式创建完成后,数组的数据类型就确定,以后只能存放Int型数据var arr02 = Array(1,2,3,"abc") 这时数组中有多种数据类型,该数组中的数据类型不确定,所以为any类型,以后可以存放任意数据类型2.通过创建数组对象:var arr03 = new Array[Int](4) 创建一个长度为4的Int型数组,此时数组内
2020-12-23 00:23:06
159
原创 Hadoop和Hive
一、什么是动态分区二、 为什么使用动态分区从业务层面: ①:当我们在业务中频繁的对某一个字段分区聚合时,就会将该字段作为分区字段来设置分区,当有大量的数据需要存储时, 可以一次性的将这些数据导入分区中(与静态分区不一样,静态分区一次只能导入一个分区的数据) ②: 在分布式计算框架中减少数据的IO迁移带来的负载,从而提升效率,性能从技术层面: 开启动态分区的模式:(静态分区不需要) set hive.exec.dynamic.partition=true
2020-12-21 18:44:47
251
原创 Hbase简介
Hbase简介一、 Hbase概述(一)、 Hbase是一个领先的NoSql数据库(二)、 Hbase特点一、 Hbase概述(一)、 Hbase是一个领先的NoSql数据库① 一个面向列存储的NoSql[^1]数据库据② 一个分布式的Hash Map,底层数是Key-Value格式③ 使用HDFS存储并利用了其可靠性[^1]:NoSql(not only SQL) 非关系型数据库(二)、 Hbase特点①数据访问速度快,响应时间约2-20毫秒②支持随机读写,每个节点20k~100k+op
2020-12-19 23:15:33
144
原创 Hive函数和查询(持续更新)
一、函数(一)常用函数(二)、窗口函数排序:row_number(): 排序时从1开始自增,相当于是自增列,1,2,3,4,5...rank(): 排序时从1开始,出现相同值时空缺,1,2,2,4,4,6...dense_rank(): 排序时从1开始,出现相同值时不留空缺:1,2,2,3,3,4...cume_dist: 从小于等于当前值的行数/分组内总行数(占比)比如:统计小于等于当前薪水的行数(人数,一行代表一个人),所占总行数(人数)的比例percent_rank
2020-12-14 11:04:06
216
原创 虚拟机的常用命令使用方法(持续更新)
具体命令命令作用cd /dir1/dir2/dir3/…加斜杠表示进入根目录dir1下的dir2下的dir3…(绝对路径。从根目录出发)cd dir4/dir5/…不加斜杠表示进入当前目录下的dir4下的dir5…(相对路径,从当前目录出发)cd ./dir4/dir5/…也表示进入当前目录下的dir4下的dir5…...
2020-12-10 00:49:54
1553
原创 Hive介绍以及对数据库和数据表的操作
一、Hive是什么二、Hive的作用三、Hive的优势四、Hive基本操作(一)、数据库(二)、数据表分区表分桶表
2020-12-09 11:22:32
532
原创 小白都能看懂的虚拟机安装步骤
**小白都能看懂的虚拟机安装步骤打开地址,下载安装包复制这段内容后打开百度网盘App。 链接:https://pan.baidu.com/s/1ODav3RcwFmcpbvmDIHtS9A 提取码:5e76。
2020-12-08 17:09:50
2793
3
原创 VMware克隆一台全新的虚拟机
一、虚拟机克隆① 首先选择一台纯净的虚拟机,右键单击,选择管理——>克隆点击下一步:依次选择以下选项依次选择以下选项给虚拟机重新命名以及安装位置:然后点击完成,出现克隆完成的页面就表示克隆成功。二、虚拟机重新配置① 开启刚刚克隆的虚拟机:② 使用被克隆的虚拟机root账号和密码登录③ 使用hostname命令查看主机名:④ 更改主机名 hostnamectl set-hostname 主机名⑥ 可以再次使用 hostname命令查看是否重命名成功开始配置IP:输
2020-12-08 11:03:42
753
原创 分布式协调服务器Zookeeper
一、Zookeeper简介① Zookeeper是一个开源的分布的,为分布式的,为分布式应用提供协调服务的Apache项目。② Zookeeper=文件系统+通知机制1)Zookeeper从设计模式上来看是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册2)一旦数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册那些观察者做出相应的反应,从而实现集群中类似Master/Slave管理模式。二、 Zookeeper数据结
2020-12-07 13:26:17
197
原创 Sqoop实现数据在关系型数据库与非关系数据库之间的互传
Sqoop简介Sqoop基本命令数据库间的导入导出#Sqoop概述:sqoop是一个分布式计算环境,能够使数据在Hadoop和关系型数据库间进行传输(例如:Mysql,Oracle, MongodDB,DB2)#Sqoop基本命令启动hbase :hbase shell查看hbase中的表:list...
2020-12-04 09:41:18
641
原创 初识shell(持续更新)
认识shell#什么是shell1)是一个环境,提供了对lunix 系统的接口2)向你接收输入,并根据输入的命令执行程序,并显示程序的输出3)可以运行我们的命令,程序和shell脚本#shell脚本的创建和使用##创建脚本1) 通常我们会把自己创建的脚本放到固定的目录下,可以在虚拟机的根目录下创建一个名为:shell 的目录来存放我们自己编写的脚本2)在shell目录下创建一个以 .sh 为后缀的文件,在这个文件中来编写我们的脚本,##使用脚本在脚本所在的目录下(即我们创建的shell
2020-11-23 14:07:14
77
原创 手把手教你在虚拟机中安装JDK和mysql
还在担心不会在虚拟机中安装JDK和mysql????今天他来了!!!!安装虚拟机见之前的博文。以下是jdk安装包,不用解压!!!!!链接:https://pan.baidu.com/s/1DgaI6oxm0SPK5HAvLmIRdw提取码:3j9w1.首先打开虚拟机,并登录 需要更新yum库 输入 yum update ,输入完成以后耐心等待直到出现下图,输入y回车............
2020-11-03 17:14:04
5159
2
原创 数组的简单介绍及应用
1.一维数组变量概念:一种存储空间的表示数组概念:一组类型相同的连续的存储空间的表示数组的特性 //1.长度 固定 //2.不可变 //3.下表索引:0~array.length-1 : 如果超出范围会报错★异常 优点: 1、类型相同 2、连续:遍历缺点 1.类型相同:无法考虑不同类型多个值的存储 2.连续:插入,移除繁琐使用数组四步骤 1.声明 xxx[] array; 2.分配空间 array = new xxx[int LENGTH]; 3.赋值 arry[i
2020-10-07 21:13:47
145
原创 Java流程控制简单应用
流程控制的分类,分支结构,循环语句一、分支结构(1)单分支条件判断语句 if ( 条件 ) { 代码 ; } 只判断if后面小括号内的条件是否成立,如果成立,则执行代码块,不成立则跳出分支,举例: public class QuIfElse03 { public static void main(String[] args){
2020-10-07 20:49:34
124
原创 Java常见运算符的简单应用
运算符1.常见的几种运算符:(1)算数运算符 + - * % / +: 进行加法运算 -: 进行减法运算 *: 进行乘法运算 %: 进行除法运算,并取上商 /: 进行除法运算,并取上余 ++ :进行自加运算, -- :进行自减运算, //a++ 先取值后+1 //++a 先+1在取值 += -= *= /= a=a+1 <=> a++/++a <=>a+=1 a=a+N <=
2020-10-07 19:46:35
166
原创 Java从入门开始
初识java1.什么是Java:Java包含了一种计算机编程语言和一个平台。 Java语言是一种高级言。由Sun微系统公司(Sun Macrosystem)发布,并作为一种开放的标准进行提供。 Java平台包括了Java虚拟机和Java应用程序接口(API)。 Java将原程序编译成字节码文件,并通过Java虚拟机(JVM)解释字节码的方式来执行字节码程序。只要针对不同的计算机平台准备相应的Java虚拟机,就可以实现一套代码在不同的操作系统上都可以运行,因此Java还是一门跨平台(write once,
2020-10-07 17:16:33
124
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人