lllW_Wlll-优快云博客

原创 hive3.0 配置元数据库，连接mysql出错

解决步骤1.配置mysql远程连接2.然后初始化schematool -dbType mysql -initSchema 报错如下解决办法修改 hive-site.xml 如下：第二个问题解决之后，然后在进行格式化元数据库又出现下面这个错误原因：我提前把元数据信息提前导入了，导致格式化出错解决办法：把元数据库删掉在进行格式化，就可以解决...

2020-06-11 11:36:41 428

原创 hadoop3.0 启动成功无法显示子节点

1.hadoop3.0启动成功，但是web页面无法显示子节点现象：子节点启动日志报错原因：/etc/hosts主机名和IP映射配置错误,导致从节点无法访问主节点解决：参考：http://blog.chinaunix.net/uid-22166872-id-5130560.html2.hive3 配置元数据库，连接不上mysql,...

2020-06-11 11:33:31 537

原创 Spark 2.0 在作业（job）完成后花费很长时间结束

1.现象在监控页面job运行完成了，但是程序还在运行，要等好久才能结束2.原因：spark 2.0在保存数据的时候会用 FileOutputCommitter ，问题就出在了 Hadoop 2.0FileOutputCommitter实现FileOutputCommitter里面有两个值得注意的方法：commitTask和commitJob。在 Hadoop 2.x 的FileOutputCommitter实现里面，mapreduce.fileoutputcommitter.al...

2020-06-11 11:29:45 957

原创 hive-让我们一起自定义udf

1.准备编写udf环境引入依赖<dependencies><dependency><groupId>jdk.tools</groupId><artifactId>jdk.tools</artifactId><version>1.8</versi...

2020-05-26 20:11:40 389

原创 kettle-转换

1：列转行2：列转行3：去除重复记录步骤名称：保持唯一性增加计数器到输出？：当勾选了此项，并在计数器字段后给予了名称，则将会在该字段下显示去掉的重复行数。字段名称：用来去重的字段，可选多个字段，表示多个字段都相同时表示重复。该功能类似与sql中的distinct关键字。4：增加序列一个序列是在某个起始值和增量的基础之上，...

2019-05-30 14:09:16 702

转载 kettle-合并记录

1：合并记录　　该步骤用于将两个不同来源的数据合并，这两个来源的数据分别为旧数据和新数据，该步骤将旧数据和新数据按照指定的关键字匹配，　　比较，合并。　　需要设置的参数：　　旧数据来源：旧数据来源的步骤。　　新数据来源：新数据来源的步骤。　　标志字段：设置标志字段的名称，标志字段用于保存比较的结果，比较结果有下列几种：　　identical:就数据和新数据一样。　　...

2019-05-30 14:07:19 9694 3

原创 Phoenix是什么及安装步骤

phoenix是什么？Apache Phoenix 是运行在Hbase之上的高性能关系型数据库，通过Phoenix可以像使用jdbc访问关系型数据库一样访问hbase。Phoenix，操作的表以及数据存储在hbase上。phoenix只需要和hbase进行表关联。然后在用工具进行一些读写操作。可以把Phoenix 只看成一种代替Hbase语法的工具。虽然Java可以用jdbc来连接phoenix，...

2018-03-14 16:46:50 1368

原创 hbase表的行键设计原则

hbase表的行键设计原则原理:HBase是一个分布式的、面向列的数据库，它和一般关系型数据库的最大区别是：HBase很适合于存储非结构化的数据，还有就是它基于列的而不是基于行的模式。既然HBase是采用KeyValue的列存储，那Rowkey就是KeyValue的Key了，表示唯一一行。Rowkey也是一段二进制码流，最大长度为64KB，内容可以由使用的用户自定义。数据加载时，一般也是根据Ro...

2018-03-13 16:39:09 4247

原创 hbase 集群搭建

hbase 集群搭建hbase集群依赖于hdfs,和yarn.所以安装搭建hbase集群必须先完成hdfs和yarn的搭建安装一 ZooKeeper安装配置1.在每台服务器(虚拟机)的host中添加(ip +hostname )：192.168.15.5 jokeros1192.168.15.6 jokeros2192.168.15.7 jokeros32.下载并解压zookeeper压缩文件：...

2018-03-10 16:17:54 405

原创 HBase底层框架.原理.数据存储

--HBase技术介绍 HBase简介HBase –Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是GoogleBigtable的开源实现，类似Google Bigtable利用GFS作为其文件存储系统，HBase利用HadoopHDFS作为其文件存储系统；Google运行...

2018-03-10 15:59:51 4290 3

雷文