- 博客(8)
- 收藏
- 关注
原创 Hadoop源码编译支持Snappy压缩
1.1 资源准备1.CentOS联网配置CentOS能连接外网。Linux虚拟机ping www.baidu.com 是畅通的注意:采用root角色编译,减少文件夹权限出现问题2.jar包准备(hadoop源码、JDK8 、maven、protobuf)(1)hadoop-2.7.2-src.tar.gz(2)jdk-8u144-linux-x64.tar.gz(3)snappy-1.1.3.tar.gz(4)apache-maven-3.0.5-bin.tar.gz(5)protobuf
2020-09-03 14:40:46
278
原创 HIVE 时间操作函数
unix_timestamp:格式化日期转时间戳hive> select unix_timestamp('2020-08-07 13:24:20','yyyy-MM-dd HH:mm:ss');1570425860Time taken: 0.218 seconds, Fetched: 1 row(s)hive> select unix_timestamp('20200807','yyyyMMdd');1570377600from_unixtime:时间戳转格式化日期hive>
2020-09-03 14:36:06
148
原创 Hive的简述
标题** Hive的简述**1.1 什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的默认实现是MapReduce3)执行程序运行在Yarn上1.2 Hive的优缺点1.2.1 优点1)操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)
2020-08-12 09:41:46
195
转载 Flink 流处理API 之 Environment
1.1 getExecutionEnvironment创建一个执行环境,表示当前执行程序的上下文。 如果程序是独立调用的,则此方法返回本地执行环境;如果从命令行客户端调用程序以提交到集群,则此方法返回此集群的执行环境,也就是说,getExecutionEnvironment会根据查询运行的方式决定返回什么样的运行环境,是最常用的一种创建执行环境的方式。``// 批处理环境val env = ExecutionEnvironment.getExecutionEnvironment// 流式数据处理环
2020-06-11 09:34:34
492
原创 Flink 流处理之source简介
1 从集合读取数据// 定义样例类:水位传感器:用于接收空高数据// id:传感器编号// ts:时间戳// vc:空高case class WaterSensor(id:String, ts:Long, vc:Double)object Source_Collection { def main(args: Array[String]): Unit = { val env: StreamExecutionEnvironment = StreamExe
2020-05-21 11:40:17
412
原创 CDH6.3.2配置Pheonix
一、下载并安装Pheonix_parcel1.下载链接:https://archive.cloudera.com/phoenix下载图片中几个文件2.将文件通过xftp等工具上传至集群3.访问http://runx-n1/pheonix_parcel/如出现下面页面代表成功二、在CM上面找到pacel页面进行配置把httpd复制到parcel上,并把pacel更新时间设置为一分钟三,...
2020-05-21 11:09:49
1063
2
原创 Flink-1.9.1-CDH6.3.2源码编译
Flink-1.9.1-CDH6.3.2源码编译一、下载两个Tag包tar包下载链接如下:链接:https://pan.baidu.com/s/1fV3X7FVgXPOBQtCG-vbkfw提取码:b51m二、修改maven的setting文件(此步骤很重要,不正确设置会导致相关依赖下载错误!切记!!!) <mirrors> <!-- 阿里云仓库 --> <mirror> <id>al
2020-05-13 20:28:46
509
原创 JUC工具类(ReentrantReadWriteLock)
ReentrantReadWriteLock对共享资源有读和写的操作,且写操作没有读操作那么频繁。在没有写操作的时候,多个线程同时读一个资源没有任何问题,所以应该允许多个线程同时读取共享资源;但是如果一个线程想去写这些共享资源,就不应该允许其他线程对该资源进行读和写的操作了。针对这种场景,JAVA的并发包提供了读写锁ReentrantReadWriteLock,它表示两个锁,一个是读操...
2019-11-07 14:51:33
211
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人