- 博客(84)
- 收藏
- 关注
原创 kudu创建外部表
1kudu创建外部表----------创建外部表------------CREATE TABLE kudu_table.inner_table (id STRING, NAME STRING, PRIMARY KEY ( id ) ) PARTITION BY HASH PARTITIONS 16 STORED AS KUDU;drop table kudu_table.map_external ;----------------创建外部映射表--------------------
2020-07-21 13:54:29
936
原创 linux目录操作
1linux查询目录下子目录总大小,linux查询当前目录总大小du -sh 查询当前目录总大小du -sh * 查询当前目录下所有子目录总大小 , * 指所有目录,如果只要查询某个目录 替换掉*即可du参数解释-h或–human-readable 以K,M,G为单位,提高信息的可读性-s或–summarize 仅显示总计,即当前目录的大小。常用:du -sh * | sort -nr 查询当前目录下所有子目录总大小 并按大小排序...
2020-07-16 11:06:39
107
原创 impala更改表结构测试案例
drop table alter_table_test;CREATE TABLE db_test.alter_table_test ( id STRING COMMENT '主键', NAME STRING COMMENT '姓名',hight int COMMENT '身高',address STRING ) PARTITIONED BY ( ds STRING COMMENT '分区' ) COMMENT '测试demo' ROW FORMAT DELIMITED FIELDS TERMI
2020-07-15 16:04:09
1123
原创 线程池
```java public void start() { //线程池 //corePoolSize int 核心线程池大小 //maximumPoolSize int 最大线程池大小 //keepAliveTime long 线程最大空闲时间 //unit TimeUnit 时间单位 //workQueue BlockingQueue<Runnable> 线程等待队列 //thr.
2020-05-28 23:29:58
136
原创 kafka常见问题汇总
1CDH重新安装kafka,启动失败Fatal error during KafkaServer startup. Prepare to shutdownkafka.common.InconsistentBrokerIdException: Configured broker.id 988 doesn't match stored broker.id 967 in meta.propert...
2019-12-24 09:33:35
282
原创 java记日志
<dependencies> <dependency> <groupId>log4j</groupId> <artifactId>apache-log4j-extras</artifactId> <version>1.2.1...
2019-10-30 21:39:05
167
1
原创 java读写文件
import org.junit.Test;import java.io.*;import java.util.Arrays;public class ReadAndWrite { public static void main(String[] args) { } /** * 一行一行读取文件,适合字符读取,若读取中文字符时会出现乱码 ...
2019-10-29 21:06:19
142
原创 linux Linux文件和目录的权限
Linux文件和目录的权限1.文件权限在linux系统中,文件或目录的权限可以分为3种:r:4 读w:2 写x:1 执行(运行)-:对应数值0数字 4 、2 和 1表示读、写、执行权限rwx = 4 + 2 + 1 = 7 (可读写运行)rw = 4 + 2 = 6 (可读写不可运行)rx = 4 +1...
2019-10-24 09:19:20
205
原创 树
1二叉树 优点:能提高数据存储,读取的效率,比如二叉排序树,既可以保证数据的检索速度,同时也可以保证数据插入,删除,修改的速度。 2 示意图 二叉树的概念树有很多种,每个节点最多只能有两个子节点的一种形式称为二叉树。 二叉树的子节点分为左节点和右节点。 如果该二叉树的所有叶子节点都在最后一层,并且结点总数= 2^n -...
2019-10-17 21:50:32
141
原创 哈希
1 哈希表基本介绍散列表(Hash table,也叫哈希表),是根据关键码值(Key value)而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。这个映射函数叫做散列函数,存放记录的数组叫做散列表。2使用哈希表来管理 雇员信息1员工类/** * 员工 */public class Emp { public ...
2019-10-15 22:03:17
174
原创 排序
1冒泡排序import java.util.Arrays;/** * 冒泡排序 * 时间复杂度O(n²) */public class BubbleSort { public static void main(String[] args) { int arr[] = {3, 2, 1, 0, 20,2,4,2,4}; bubbleSort(...
2019-10-13 11:13:10
146
原创 数据结构和算法
1稀疏数组package com.github.structure;public class SparseArray { public static void main(String[] args) { System.out.println("1111"); //0表示没有棋子,1表示黑子 2表示蓝子 //c创建一个原始二维数组11...
2019-09-07 17:25:00
154
转载 java.util.ArrayList 类
1、ArrayList 定义 ArrayList 是一个用数组实现的集合,支持随机访问,元素有序且可以重复。public class ArrayList<E> extends AbstractList<E> implements List<E>, RandomAccess, Cloneable, java.io.Serial...
2019-08-24 11:18:33
5049
转载 impala实现拉链表
1.文档目的 拉链表是针对数据仓库设计中表存储数据的方式而定义的,即是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。传统数据仓库一般采用拉链的方式保留主数据(例如客户信息)的变化数据,采用这种设计方式的主要原因是减少数据冗余。这个需求在Hadoop中主要是有以下两种实现方式选择:每天保留一份全量的切片数据。Hadoop平台由于采用通用的硬件设备,因此存储空间的...
2019-08-10 16:06:57
1395
2
转载 Hive 的权限控制
Hive 的权限控制Hive从0.10可以通过元数据控制权限。但是Hive的权限控制并不是完全安全的。基本的授权方案的目的是防止用户不小心做了不合适的事情。为了使用Hive的授权机制,有两个参数必须在hive-site.xml中设置:< property> < name>hive.security.authorization.enabled<...
2019-07-31 21:12:12
354
原创 sql注意
1delete,drop,truncate区别适用场景TRUNCATE 和DELETE只删除数据, DROP则删除整个表(结构和数据)。 truncate与不带where的delete:只删除数据,而不删除表的结构(定义)drop语句将删除表的结构被依赖的约束(constrain),触发器(trigger)索引(index);依赖于该表的存储过程/函数将被保留,但其状态会变为:inv...
2019-07-31 20:56:11
95
原创 impala学习
1impala原理2impala类型转换2、cast函数 cast(expr AS type), 类型转换函数, 比如将number转成string, 或相反. select cast(length as int) len from dw_bill_his where length != '无' and startdate='2018-09-01' order by ...
2019-07-30 22:03:12
1039
原创 orcale学习
1orcale大字段查询1identifier is too long 错误解决办法:原因在于字段超过了Oracle本身设定的30个字符.2orcale赋权限3设置Oracle数据库客户端字符集以及系统中的NLS_LANG环境变量4oracle监听[oracle@erzhen ~]$ lsnrctl statusLSNRCTL for L...
2019-07-30 22:01:59
364
原创 orcale
1关于大字段的类型,没仔细查,应该有blob和clob,我看别的好像还有text类型,目前只用了clobclob的用法网上的挺麻烦的,我用的公司集成的框架,直接hibernate的集成的方法插入和更新,也尝试过手打sql,但是会报字符串太长的错。clob适合文字,大幅的文字blob适合图片之类的作者:兔老大的胡萝卜来源:优快云原文:https://blog.youkuaiyun.com/nuo...
2019-07-25 23:08:33
121
转载 Hive 设置map 和 reduce 的个数
一,控制hive任务中的map数:1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例:a) 假设input目录下有1个文件a,大小为780...
2019-07-10 20:41:05
374
转载 jvm:类加载过程详解
1、加载:这个很简单,程序运行之前jvm会把编译完成的.class二进制文件加载到内存,供程序使用,用到的就是类加载器classLoader ,这里也可以看出java程序的运行并不是直接依 靠底层的操作系统,而是基于jvm虚拟机。如果没有类加载器,java文件就只是磁盘中的一个普通文件。2、连接:连接是很重要的一步,过程比较复杂,分为三步 验证 》准备 》解析 验证:确...
2019-07-10 15:02:45
101
原创 hive文件格式
1TextFile每一行都是一条记录,每行都以换行符(\ n)结尾。数据不做压缩,磁盘开销大,数据解析开销大。可结合Gzip、Bzip2使用(系统自动检查,执行查询时自动解压),但使用这种方式,hive不会对数据进行切分,从而无法对数据进行并行操作。2SequenceFile是Hadoop API提供的一种二进制文件支持,其具有使用方便、可分割、可压缩的特点。支持三种压缩选择:NONE, R...
2019-07-06 15:27:08
235
转载 redis几种数据类型以及使用场景
1. string类型string为最简单类型,一个key对应一个valueset mykey "wangzai" ##设置key,第二次赋值会直接覆盖之前的setnx mykey "wangzai" ## 如果mykey存在,则不改变,如果不存在,则创建赋值 get mykey ##获取ke...
2019-07-03 22:35:57
121
原创 大数据列式存储parquet/orc
1什么是列式存储传统的数据编码方式是以行为单位进行,列式存储则是将数据划分成数据块,每个数据块内部按列的方式进行编码存储,通过使用列式存储会有以下好处:存储效率更高,因为同一列的数据类型一致,编码效率也会更高 查询效率更高,利用列式存储的统计信息,可以跳过大量的数据,减少IO压力 ...
2019-06-29 15:30:49
298
原创 1hive总结
1hive元数据管理1库,表的基本信息,包括表名,存储类型及地址,分区信息列等 2已经注册的UDF相关信息 3用户,权限相关信息2spark ThriftServer1 spark sql处理 2sql语法解析 3逻辑执行计划生成及优化 4物流执行计划及优化3表,分区与桶内外表 数据格式(推荐parquet存储) 分区(基于文件目录index) 桶(大表join)...
2019-06-29 13:38:17
154
转载 HiveQL (HQL) 与 SQL 区别
Hive的查询语言是HQL,HQL支持SQL-92标准,所以与SQL非常相似。但由于Hive是基于Hadoop,而SQL通常是基于关系型数据库,这使得HQL与SQL相比有一些区别和局限。HQL不支持行级别的增、改、删,所有数据在加载时就已经确定,不可更改。不支持事务。支持分区存储。...
2019-06-27 17:13:26
1938
转载 Spark任务提交方式和执行流程
一、Spark中的基本概念(1)Application:表示你的应用程序(2)Driver:表示main()函数,创建SparkContext。由SparkContext负责与ClusterManager通信,进行资源的申请,任务的分配和监控等。程序执行完毕后关闭SparkContext(3)Executor:某个Application运行在Worker节点上的一个进程,该进程负责运行某些t...
2019-06-26 09:49:24
455
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人