
hadoop
woloqun
这个作者很懒,什么都没留下…
展开
-
kerberos安全hadoop集群开启高可用
https://docs.cloudera.com/documentation/enterprise/6/latest/topics/cdh_hag_hdfs_ha_config.html开启高可用后,需要修改的地方1.hive相关的所有服务必须全部关闭,然后更新Hive Metastore Namenode如果开启了hive on spark,不更新Hive Metastore Namen...原创 2019-11-19 10:24:01 · 989 阅读 · 0 评论 -
hive元数据
一、元数据表描述mysql元数据库hive中的表:表名 作用 BUCKETING_COLS 存储bucket字段信息,通过SD_ID与其他表关联 CDS 一个字段CD_ID,与SDS表关联 COLUMNS_V2 存储字段信息,通过CD_ID与其他表关联 DATABASE_PARAMS 数据库的属性信息 DBS 存储hive的datab...原创 2018-08-20 13:56:44 · 1250 阅读 · 0 评论 -
数据仓库迁移记录
公司现有的hadoop集群空间快用完了,预计不久文件数将超过一个namenode支持上限(namenode支持的文件数和namenode内存大小有关,1G内存大约支持100w个文件),所以公司搭建了一套新的集群,采用Frederation架构来支持hadoop集群的水平扩展,原理上就是将hdfs元数据信息存储在多个namenode上,可以理解为分片,每个namenode分片又做了HA,集群拓扑图如...原创 2018-08-21 10:12:30 · 1525 阅读 · 0 评论 -
数据仓库分层设计
最近在做数据仓库相关的工作,项目快要收尾了,总结下数据仓库数据分层设计的一些心得;虽然以前做过很多olap相关的工作,就像流量统计分析这种,这种类型分析,我们往往就弄一张大宽表和几张维度表;所有的统计分析都基于这张大宽表与维度表,在这种简单的应用场景,这种设计倒没有什么问题,简单明了;但是如果业务场景复杂,数据种类多,维度多,那数据仓库的设计就尤为重要,特别是在数据出了问题情况下,要进行排查,结构...原创 2018-09-28 16:34:32 · 3892 阅读 · 7 评论 -
hdfs 小文件合并方案(附代码)
原创 2018-10-29 10:38:20 · 6398 阅读 · 8 评论 -
获得parquet文件的rows和filesize
贴代码 public static void getParquetFileSizeAndRowCount()throws Exception{ Path inputPath = new Path("/user/hive/warehouse/user_parquet"); Configuration conf = new Configuration(); ...原创 2018-10-26 10:43:37 · 1876 阅读 · 1 评论 -
Determine HDP Memory Configuration Settings
Two methods can be used to determine YARN and MapReduce memory configuration settings: Use the HDP Utility Script to calculate memory configuration settings Manually calculate YARN and MapRedu...转载 2018-11-29 11:58:28 · 673 阅读 · 1 评论 -
Hadoop 元数据备份恢复
早先写过一篇Hadoop HA 搭建bolg,为了实现hadoop集群的高可用需要引入Zookeeper和Journal;其实hadoop集群最重要的是hdfs元数据;只要保证hdfs 元数据不丢失就行;进程挂了,重启即可;但现在问题来了,怎样保证hdfs元数据不丢失或者说尽可能少的丢失?在了解这个问题前,先来看下元数据是什么[qun@cluster-master name]$ pwd/hom...原创 2018-11-26 17:23:53 · 2357 阅读 · 0 评论 -
hdfs磁盘均衡
背景:之前hdfs磁盘使用率已经达到了80%以上,所以对每台机器增加了3块1TB的硬盘,加完硬盘后立马对集群进行了一次Balancer,各个节点数据总量确实得到均衡,但是各个磁盘数据并没有想象中均匀分布,新磁盘的数据很少,大部分数据还是分布在老磁盘上,就像下边[hdfs@hadoop3 ~]$ df -hlFilesystem Size Used Avail Use% Mount...原创 2019-01-14 21:21:18 · 3208 阅读 · 2 评论 -
hadoop集成kerberos后,报org.apache.hadoop.security.AccessControlException
报错信息:[root@hadoop001 qun]# hdfs dfs -ls /19/05/29 18:06:15 WARN ipc.Client: Exception encountered while connecting to the server : org.apache.hadoop.security.AccessControlException: Client cannot au...原创 2019-05-29 18:14:23 · 7553 阅读 · 0 评论 -
windows环境下调试MR任务
1.首先在windows环境配置HADOOP_HOME 2.下载hadoop.dll和winutils.exe文件,并放到$HADOOP_HOME/bin目录下 下载地址:https://github.com/rucyang/hadoop.dll-and-winutils.exe-for-hadoop2.7.3-on-windows_X64 3.修改org.apache.hadoop.io....原创 2018-08-09 00:20:08 · 886 阅读 · 0 评论 -
hadoop集群的高可用(Namenode&&ResourceManager)
主机名 ip soft 运行的进程 master 192.168.1.115 jdk,hadoop NameNode,DFSZKFailoverController(zkfc) slave1 192.168.1.116 jdk,hadoop NameNode,DFSZKFailoverController(zkfc) slav...原创 2018-08-06 22:22:30 · 2772 阅读 · 0 评论 -
Hadoop 切换Namenode报错
之前给集群做了HA,master 默认为active,slave3为standby,为了测试高可用,认为kill掉master节点的Namenode进程,发现slave3上的NameNode进程并没有像预想中的称为active状态,查看zkfc日志tail -100f hadoop-qun-zkfc-slave3.log 发现报如下错误com.jcraft.jsch.JSchExc...原创 2018-08-04 23:08:46 · 1350 阅读 · 0 评论 -
MapReduce读取sequencefile文件
博客地址:http://www.fanlegefan.com 文章地址:http://www.fanlegefan.com/index.php/2017/08/18/mapreducesequencefile/创建sequencefile格式hive表create table test_seqencefile(name string,age int) stored as SEQUENCEFILE原创 2017-08-18 16:08:38 · 2329 阅读 · 0 评论 -
配置启动hadoop jobhistory
博客地址:http://www.fanlegefan.com 文章地址:http://www.fanlegefan.com/index.php/2017/08/18/hadoop-jobhistory/编辑mapred-site.xml<property> <name>mapreduce.jobhistory.address</name> <value>0.0.0.0:10020<原创 2017-08-18 09:53:13 · 1460 阅读 · 0 评论 -
读写parquet格式文件的几种方式
摘要本文将介绍常用parquet文件读写的几种方式1.用spark的hadoopFile api读取hive中的parquet格式文件2.用sparkSql读写hive中的parquet格式3.用新旧MapReduce读写parquet格式文件读parquet文件首先创建hive表,数据用tab分隔create table test(name string,ag...原创 2017-07-25 14:28:03 · 62031 阅读 · 4 评论 -
MapReduce读写orc文件
博客地址:http://www.fanlegefan.com文章地址:http://www.fanlegefan.com/index.php/2017/08/16/mapreduceorc/MapReduce 读取ORC格式文件创建orc格式hive表create table test_orc(name string,age int) stored as orc查看hive表结构show creat原创 2017-08-16 18:05:15 · 6789 阅读 · 0 评论 -
parquet-thrfit 数据读写以及hive表读取
博客地址:http://www.fanlegefan.com 文章地址:http://www.fanlegefan.com/index.php/2017/07/21/parquet-thrfit-hive/摘要本文将用MapReduce方式读写parquet-thrfit格式文件,并将数据导入到hive表中进行查询操定义person.thrift文件namespace java com.fan.h原创 2017-08-03 12:14:31 · 2316 阅读 · 0 评论 -
hadoop-2.8编译以及集群安装
博客地址:http://www.fanlegefan.com 文章地址:http://www.fanlegefan.com/index.php/2017/06/17/hadoopbuild/hadoop-2.8编译本地编译环境centos-6.5 64位mvn 3.3.9jdk 1.8.0_91CMake 2.8.12.2protobuf-2.5.0其他:sudo yum -y ins原创 2017-08-03 12:00:55 · 766 阅读 · 0 评论 -
hadoop集成kerberos
节点 ip 进程 user master 192.168.1.115 NameNode root slave1 192.168.1.116 DataNode root kdcserver 192.168.1.118 kdc,kadmin root在kdcserver节点配置kerberos安装http://note.youdao.com/n原创 2017-12-31 23:18:07 · 1024 阅读 · 1 评论 -
获得parquet文件的schema 合并parquet小文件
获得parquet文件的schemaimport org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.par...原创 2018-06-22 17:07:40 · 6241 阅读 · 0 评论