自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

雷文

大数据 Java

  • 博客(10)
  • 收藏
  • 关注

原创 hive3.0 配置元数据库,连接mysql出错

解决步骤1.配置mysql远程连接2.然后初始化schematool -dbType mysql -initSchema 报错如下解决办法 修改 hive-site.xml 如下: 第二个问题解决之后,然后在进行格式化元数据库又出现下面这个错误 原因:我提前把元数据信息提前导入了,导致格式化出错解决办法:把元数据库删掉在进行格式化,就可以解决...

2020-06-11 11:36:41 386

原创 hadoop3.0 启动成功无法显示子节点

1.hadoop3.0启动成功,但是web页面无法显示子节点现象:子节点启动日志报错原因:/etc/hosts主机名和IP映射配置错误,导致从节点无法访问主节点解决:参考:http://blog.chinaunix.net/uid-22166872-id-5130560.html2.hive3 配置元数据库,连接不上mysql,...

2020-06-11 11:33:31 488

原创 Spark 2.0 在作业(job)完成后花费很长时间结束

1.现象在监控页面job运行完成了,但是程序还在运行,要等好久才能结束2.原因:spark 2.0在保存数据的时候 会用 FileOutputCommitter , 问题就出在了 Hadoop 2.0FileOutputCommitter实现FileOutputCommitter里面有两个值得注意的方法:commitTask和commitJob。在 Hadoop 2.x 的FileOutputCommitter实现里面,mapreduce.fileoutputcommitter.al...

2020-06-11 11:29:45 872

原创 hive-让我们一起自定义udf

1.准备编写udf环境引入依赖<dependencies><dependency><groupId>jdk.tools</groupId><artifactId>jdk.tools</artifactId><version>1.8</versi...

2020-05-26 20:11:40 352

原创 kettle-转换

1:列转行2:列转行3:去除重复记录 步骤名称:保持唯一性 增加计数器到输出?:当勾选了此项,并在计数器字段后给予了名称,则将会在该字段下显示去掉的重复行数。 字段名称:用来去重的字段,可选多个字段,表示多个字段都相同时表示重复。 该功能类似与sql中的distinct关键字。4:增加序列 一个序列是在某个起始值和增量的基础之上,...

2019-05-30 14:09:16 611

转载 kettle-合并记录

1:合并记录  该步骤用于将两个不同来源的数据合并,这两个来源的数据分别为旧数据和新数据,该步骤将旧数据和新数据按照指定的关键字匹配,  比较,合并。  需要设置的参数:  旧数据来源:旧数据来源的步骤。  新数据来源:新数据来源的步骤。  标志字段:设置标志字段的名称,标志字段用于保存比较的结果,比较结果有下列几种:  identical:就数据和新数据一样。  ...

2019-05-30 14:07:19 9369 3

原创 Phoenix是什么及安装步骤

phoenix是什么?Apache Phoenix 是运行在Hbase之上的高性能关系型数据库,通过Phoenix可以像使用jdbc访问关系型数据库一样访问hbase。Phoenix,操作的表以及数据存储在hbase上。phoenix只需要和hbase进行表关联。然后在用工具进行一些读写操作。可以把Phoenix 只看成一种代替Hbase语法的工具。虽然Java可以用jdbc来连接phoenix,...

2018-03-14 16:46:50 1249

原创 hbase表的行键设计原则

 hbase表的行键设计原则原理:HBase是一个分布式的、面向列的数据库,它和一般关系型数据库的最大区别是:HBase很适合于存储非结构化的数据,还有就是它基于列的而不是基于行的模式。既然HBase是采用KeyValue的列存储,那Rowkey就是KeyValue的Key了,表示唯一一行。Rowkey也是一段二进制码流,最大长度为64KB,内容可以由使用的用户自定义。数据加载时,一般也是根据Ro...

2018-03-13 16:39:09 4153

原创 hbase 集群搭建

hbase 集群搭建hbase集群依赖于hdfs,和yarn.所以安装搭建hbase集群必须先完成hdfs和yarn的搭建安装一 ZooKeeper安装配置1.在每台服务器(虚拟机)的host中添加(ip +hostname  ):192.168.15.5 jokeros1192.168.15.6 jokeros2192.168.15.7 jokeros32.下载并解压zookeeper压缩文件:...

2018-03-10 16:17:54 374

原创 HBase底层框架.原理.数据存储

--HBase技术介绍 HBase简介HBase –Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是GoogleBigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用HadoopHDFS作为其文件存储系统;Google运行...

2018-03-10 15:59:51 4209 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除