- 博客(10)
- 收藏
- 关注
原创 hive3.0 配置元数据库,连接mysql出错
解决步骤1.配置mysql远程连接2.然后初始化schematool -dbType mysql -initSchema 报错如下解决办法 修改 hive-site.xml 如下: 第二个问题解决之后,然后在进行格式化元数据库又出现下面这个错误 原因:我提前把元数据信息提前导入了,导致格式化出错解决办法:把元数据库删掉在进行格式化,就可以解决...
2020-06-11 11:36:41
386
原创 hadoop3.0 启动成功无法显示子节点
1.hadoop3.0启动成功,但是web页面无法显示子节点现象:子节点启动日志报错原因:/etc/hosts主机名和IP映射配置错误,导致从节点无法访问主节点解决:参考:http://blog.chinaunix.net/uid-22166872-id-5130560.html2.hive3 配置元数据库,连接不上mysql,...
2020-06-11 11:33:31
488
原创 Spark 2.0 在作业(job)完成后花费很长时间结束
1.现象在监控页面job运行完成了,但是程序还在运行,要等好久才能结束2.原因:spark 2.0在保存数据的时候 会用 FileOutputCommitter , 问题就出在了 Hadoop 2.0FileOutputCommitter实现FileOutputCommitter里面有两个值得注意的方法:commitTask和commitJob。在 Hadoop 2.x 的FileOutputCommitter实现里面,mapreduce.fileoutputcommitter.al...
2020-06-11 11:29:45
872
原创 hive-让我们一起自定义udf
1.准备编写udf环境引入依赖<dependencies><dependency><groupId>jdk.tools</groupId><artifactId>jdk.tools</artifactId><version>1.8</versi...
2020-05-26 20:11:40
352
原创 kettle-转换
1:列转行2:列转行3:去除重复记录 步骤名称:保持唯一性 增加计数器到输出?:当勾选了此项,并在计数器字段后给予了名称,则将会在该字段下显示去掉的重复行数。 字段名称:用来去重的字段,可选多个字段,表示多个字段都相同时表示重复。 该功能类似与sql中的distinct关键字。4:增加序列 一个序列是在某个起始值和增量的基础之上,...
2019-05-30 14:09:16
611
转载 kettle-合并记录
1:合并记录 该步骤用于将两个不同来源的数据合并,这两个来源的数据分别为旧数据和新数据,该步骤将旧数据和新数据按照指定的关键字匹配, 比较,合并。 需要设置的参数: 旧数据来源:旧数据来源的步骤。 新数据来源:新数据来源的步骤。 标志字段:设置标志字段的名称,标志字段用于保存比较的结果,比较结果有下列几种: identical:就数据和新数据一样。 ...
2019-05-30 14:07:19
9369
3
原创 Phoenix是什么及安装步骤
phoenix是什么?Apache Phoenix 是运行在Hbase之上的高性能关系型数据库,通过Phoenix可以像使用jdbc访问关系型数据库一样访问hbase。Phoenix,操作的表以及数据存储在hbase上。phoenix只需要和hbase进行表关联。然后在用工具进行一些读写操作。可以把Phoenix 只看成一种代替Hbase语法的工具。虽然Java可以用jdbc来连接phoenix,...
2018-03-14 16:46:50
1249
原创 hbase表的行键设计原则
hbase表的行键设计原则原理:HBase是一个分布式的、面向列的数据库,它和一般关系型数据库的最大区别是:HBase很适合于存储非结构化的数据,还有就是它基于列的而不是基于行的模式。既然HBase是采用KeyValue的列存储,那Rowkey就是KeyValue的Key了,表示唯一一行。Rowkey也是一段二进制码流,最大长度为64KB,内容可以由使用的用户自定义。数据加载时,一般也是根据Ro...
2018-03-13 16:39:09
4153
原创 hbase 集群搭建
hbase 集群搭建hbase集群依赖于hdfs,和yarn.所以安装搭建hbase集群必须先完成hdfs和yarn的搭建安装一 ZooKeeper安装配置1.在每台服务器(虚拟机)的host中添加(ip +hostname ):192.168.15.5 jokeros1192.168.15.6 jokeros2192.168.15.7 jokeros32.下载并解压zookeeper压缩文件:...
2018-03-10 16:17:54
374
原创 HBase底层框架.原理.数据存储
--HBase技术介绍 HBase简介HBase –Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是GoogleBigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用HadoopHDFS作为其文件存储系统;Google运行...
2018-03-10 15:59:51
4209
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人