- 博客(8)
- 资源 (3)
- 收藏
- 关注
原创 kafka 的配置、使用和数据迁移
1)Create a topicbin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test查看运行的topicbin/kafka-topics.sh --list --zookeeper localhost:21812)发...
2019-03-03 11:47:57
453
1
原创 hive 压缩格式汇总
今天,看了几篇hive压缩格式相关的博客觉得不错,在这里做一下提取要点汇总。0 前言数据做压缩和解压缩会增加CPU的开销,但可以最大程度的减少文件所需的磁盘空间和网络I/O的开销,所以最好对那些I/O密集型的作业使用数据压缩,cpu密集型,使用压缩反而会降低性能。 而hive中间结果是map输出传给reduce,所以应该使用低cpu开销和高压缩效率,一般最好使用sn...
2019-03-01 16:31:32
3294
原创 探寻hdfs-audit log -2
从SQL层面上分析:insert 操作:2019-02-18 18:14:35,396 INFO FSNamesystem.audit: allowed=true ugi=hive (auth:SIMPLE) ip=/ip.151 cmd=delete src=/user/hive/.staging/job_1544610861281_0006 d...
2019-02-22 23:51:07
887
原创 探寻hdfs-audit log -1
最近集群压力较大,为了缓解集群压力,开始分析hdfs-audit log。对于hdfs-audit 审计日志,我们先看一些常用命令;cmd 命令解释:getfileinfomkdirssetAcl -- checkOperation(OperationCategory.WRITE);getAclStatus -- checkOperation(OperationCategor...
2019-02-22 23:28:24
1936
原创 mysql 数据导入hive问题
环境:os : centos7.5hadoop :3.0hive: 3.0sqoop: 1.5mysql: 5.7MySQL数据导入到hive,在通过zookeeper地址连接hive时,一直处于卡住状态,没有发现任何错误信息,经过一番查找,终于发现问题之根源。 首先,给一下我的导入命令:sudo -u hdfs sqoop import –connect ‘\...
2019-02-22 23:01:11
423
原创 scala 集合操作(截取、过滤和分组)
(1)scala集合截取 集合截取 -- slice ,看代码如下:// 截取集合的一部分val t = Traversable(1 to 10 :_*)println(t.slice(2,5))// List(3, 4, 5)取集合前N个元素 -- take takewhile// 取前面6个元素println(t.take(6))// List(1, 2, ...
2019-02-12 11:03:43
10526
原创 scala 集合的阶乘
利用scala丰富的高阶函数,处理阶乘。(1)传统方式定义阶乘 首先,我们来看一下传统的阶乘如何定义:// 传统递归方式def baseFactories(x:Int):Int = if (x ==0) 1 else (x*baseFactories(x-1))// testval t = Traversable(1 to 5:_*)println(t.map(baseF...
2019-02-12 10:42:51
1866
原创 expect-5.43.0.tar.gz 下载
每次检索看到自己需要的包需要积分,很烦,果断Google一下,什么都出来了。wget http://repository.timesys.com/buildsources/e/expect/expect-5.43.0/expect-5.43.0.tar.gz
2018-11-23 09:50:42
1928
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人