
Hadoop
时间的美景
一万年太久,只争朝夕
展开
-
【Ambari】hadoop-yarn 组件YARN Registry DNS启动报错
启动YARN Registry DNS报错信息如下:resource_management.core.exceptions.ExecutionFailed: Execution of 'ambari-sudo.sh -H -E /usr/hdp/3.1.0.0-78/hadoop-yarn/bin/yarn --config /usr/hdp/3.1.0.0-78/hadoop/conf --daemon start registrydns' returned 1. ERROR: Cannot set p原创 2020-06-02 14:19:37 · 3306 阅读 · 0 评论 -
【HBase】关于rowkey排序实践案例(自定义数字生成rowkey问题)
从生成hfile问题发现rowkey排序机制假如,我们要手动生成hfile到hdfs中,然后再通过bulkload将hifle导入到hbase数据库中现在我要提前生成100个rowkey// 生成rowkey list private List<String> getRowKeyList(String rowsNum) { List<String> list ...原创 2020-03-13 11:58:05 · 696 阅读 · 0 评论 -
【HBase】Hbase 高级应用
文章目录1. 建表高级属性1.1 BLOOMFILTER(布隆过滤器)1.2 VERSIONS(版本号)1.3 COMPRESSION(压缩)1.4 TTL(Time To Live)1.5 Alter(修改表)1.6 describe/desc(查看表详细信息)1.7 disable_all/enable_all1.8 drop_all1.9 HBase 预分区2. 表设计2.1 列...原创 2020-03-08 16:08:21 · 356 阅读 · 0 评论 -
【HBase】HBase 底层原理
文章目录1. 系统架构2. 物理存储2.1 整体物理结构2.2 Storefile 和 HFile 结构2.3 MemStore 和 StoreFile2.4 HLog(WAL) 预写日志3. 寻址机制3.1 老的region寻址方式3.2 新的region寻址方式4. 读写过程4.1 读请求过程4.2 写请求过程5. RegionServer 的工作机制6. Master 工作机制1. 系统架...原创 2020-03-07 17:42:35 · 418 阅读 · 0 评论 -
【Hbase】hbase 基础知识
文章目录1. hbase数据库介绍1.1 产生背景1.2 简介2. hbase 集群结构3. hbase和hive比较1. hbase数据库介绍1.1 产生背景自 1970 年以来,关系数据库用于数据存储和维护有关问题的解决方案。大数据的出现后, 好多公司实现处理大数据并从中受益,并开始选择像 Hadoop 的解决方案。Hadoop 使用分 布式文件系统,用于存储大数据,并使用 MapRed...原创 2020-03-07 14:50:47 · 205 阅读 · 0 评论 -
【HBase】HBase 高级编程
文章目录1. HBase 结合 mapreduce1.1 HBase—>HDFS1.2 HDFS—>HBase2. HBase 和 mysql 进行数据互导2.1 MySQL—>HBase2.2 HBase—>MySQL3. HBase 整合 hive3.1 原理3.2 准备HBase表和数据3.3 Hive端操作3.4 验证1. HBase 结合 mapreduce...原创 2020-03-07 11:15:40 · 402 阅读 · 0 评论 -
【Ranger】hortonworks ambari安装ranger错误解决
文章目录安装时依次解决的问题1 /usr/hdp/current/ranger-usersync/conf doesn't exist2. Access denied for user 'root'@'10.211.55.60' to database 'mysql' ErrorCode: 10443. cannot change directory to /home/ranger: Permi...原创 2020-02-27 09:56:04 · 3951 阅读 · 1 评论 -
【Ambari】Build and install Ambari 2.7.5
文章目录环境准备1. download and build1.1 download1.1.1 下载源码包(清华镜像)1.1.2 mvn versions:set -DnewVersion=2.7.5.0.01.1.3 pushd ambari-metrics1.1.4 mvn versions:set -DnewVersion=2.7.5.0.01.1.5 popd1.2 build1.3 bui...原创 2020-02-23 09:59:42 · 10170 阅读 · 8 评论 -
【Hadoop】hortonworks/hadoop-release-HDP-3.1.5.1-2-tag build log
文章目录源码包下载地址buid 命令buid 过程问题及解决办法添加 hdp repo清除本地maven repo中的lastUpdatedSSL peer shut down incorrectly源码包下载地址源码地址:https://github.com/hortonworks/hadoop-release/releases/tag/HDP-3.1.5.1-2-tagbuid 命令t...原创 2020-02-23 09:55:36 · 3452 阅读 · 5 评论 -
【Hbase】hbase java api 增删改查
几个主要 Hbase API 类和数据模型之间的对应关系:java类HBase 数据模型Admin数据库(DataBase)HBaseConfigurationTable表(Table)HTableDescriptor列簇(Column Family)HColumnDescriptorPut列修饰符(Column Qualifier)Get...原创 2020-02-12 18:41:43 · 256 阅读 · 0 评论 -
【Hbase】hbase高可用集群搭建
文章目录准备安装1. 解压2. 修改配置文件3. 分发修改后的安装包到其它节点4. 配置环境变量5. 别忘记时间同步6. 启动(顺序要注意)7. 检查是否启动成功8. 如果有节点相应的进程没有启动,那么可以手动启动准备安装hadoop集群安装zookeeper集群官网下载:http://hbase.apache.org/downloads.html我们这里选择下载链接:http://mi...原创 2020-02-06 17:28:09 · 460 阅读 · 1 评论 -
【Zookeeper】zookeeper 原理和应用
文章目录1. zookeeper原理解释1.1 集群角色描述1.2 Paxos 算法概述(ZAB协议)1.2.1 zookeeper 的全新集群选主1.2.2 zookeepr 的非全新集群选主1.3 数据同步1.4 zookeeper 工作流程1.4.1 leader 工作流程1.4.2 follower 工作流程1.4.3 observer 工作流程1.4.4 zookeeper 写数据流程2...原创 2020-01-20 15:47:51 · 545 阅读 · 0 评论 -
[Hadoop] hadoop 2.7完全分布式高可用部署
文章目录1. hadoop ha 原理描述2. 集群规划3. 集群服务器准备1. 配置IP和主机名称映射2. 关闭防火墙3. 关闭selinux4. 同步时间5. 配置sudo权限6. 安装jdk环境7. 切换用户配置ssh免密登录8. 安装zookeeper集群4. 集群安装1. 下载包hdoop-2.7.7.tar.gz2. 配置hadoop文件3. 配置环境变量4. 分发安装包到其它主机4....原创 2020-01-20 15:45:12 · 819 阅读 · 0 评论 -
【Zookeeper】zookeeper 基础知识
文章目录1. 引言2. ZooKeeper 是什么3. Zookeeper 核心概念3.1 文件系统3.2 监听机制3.3 监听机制原理4. Zookeeper 典型应用场景4.1 命名服务4.2 配置管理4.3 集群管理4.4 分布式锁4.5 队列管理5. Zookeeper 特点/设计目的5. Zookeeper 集群使用5.1 ZooKeeper 集群 cli 使用5.2 ZooKeeper...原创 2020-01-19 09:00:56 · 496 阅读 · 0 评论 -
【Zookeeper】zookeeper 3.4.10 安装
文章目录1. 解压2. 配置环境变量3. 修改zookeeper配置文件4. 拷贝已修改好配置文件的安装包到其它节点5. 启动zookeeper6. 启动集群时的选主过程1. 解压[hdp01@hdp01 apps]$ tar zxvf zookeeper-3.4.10.tar.gz软链接 防止替换包,还得改配置[hdp01@hdp01 apps]$ ln -s zookeeper-3.4...原创 2020-01-16 16:50:08 · 713 阅读 · 0 评论 -
【Zookeepr】分布式一致性相关理论
文章目录分布式一致性理论计算机的发展分布式一致性的问题分布式一致性级别事务CAP 理论BASE理论Quorum NRW分布式事务Paxos算法分布式一致性理论计算机的发展从集中式到分布式:最大的特点就是部署简单。集中式:底层都是采用性能卓越的大型主机,一个节点单独完整作业,不用考虑多个节点之间的协调问题分布式:概念分布式系统是一个硬件或软件组件分布在不同的网络计算机上,彼此之间仅仅...原创 2020-01-16 18:30:55 · 484 阅读 · 0 评论 -
【Hive】hive影评案例
文章目录数据描述数据要求题目1. 正确建表,导入数据(三张表,三份数据),并验证是否正确2. 求被评分次数最多的10部电影,并给出评分次数(电影名,评分次数)3. 分别求男性,女性当中评分最高的10部电影(性别,电影名,影评分)4. 求movieid = 2116这部电影各年龄段(因为年龄就只有7个,就按这个7个分就好了)的平均影评(年龄段,影评分)5. 求最喜欢看电影(影评次数最多)的那位女性评...原创 2020-01-15 16:52:43 · 3379 阅读 · 0 评论 -
【Hive】hive 数据倾斜、优化策略、hive执行过程、垃圾回收
文章目录原创 2020-01-15 08:42:06 · 1138 阅读 · 0 评论 -
【Hive】hive shell
文章目录原创 2020-01-14 15:37:31 · 238 阅读 · 0 评论 -
【Hive】hive 微博案例
文章目录数据准备及描述数据描述数据样例字段描述数据存储准备开始功能需求1. 数据处理:针对数据问题,请给出对应的解决方案(15分)2. 组织数据(10分)3. 统计微博总量 和 独立用户数(7分)4. 统计用户所有微博被转发的次数之和,输出top5用户,并给出次数(7分)5. 统计带图片的微博数(7分)6. 统计使用iphone发微博的独立用户数(7分)7. 将微博的点赞人数和转发人数相加求和,并...原创 2020-01-11 22:09:07 · 1473 阅读 · 1 评论 -
【Hive】hive窗口函数/分析函数 over子句
文章目录over子句介绍1. 什么是over子句2. over子句的开窗范围3. window clause4. over子句默认值4.1 order by4.2 partition by4.3 partition by + order by几个常用开窗函数案例引出row_numberrankdense_rank案例答案over子句介绍over子句参考链接 https://blog.csdn....原创 2020-01-05 21:02:33 · 1258 阅读 · 0 评论 -
【Hive】hive特殊分隔符处理
文章目录HIVE 特殊分隔符处理1. 使用 RegexSerDe 通过正则表达式来抽取字段2. 通过自定义 InputFormat 解决特殊分隔符问题HIVE 特殊分隔符处理补充:hive 读取数据的机制:首先用 InputFormat<默认是:org.apache.hadoop.mapred.TextInputFormat >的一个具体实现类读入文件数据,返回一条一条的记录...原创 2020-01-05 17:09:44 · 1490 阅读 · 2 评论 -
【Hive】hive函数
文章目录hive函数hive内置函数1. 查看内置函数2. 测试内置函数快捷方式3. 内置函数列表3.1 关系运算:3.2 数学运算:3.3 逻辑运算:3.4 复合类型构造函数3.5 复合类型操作符3.6 数值计算函数3.7 集合操作函数3.8 类型转换函数3.9 日期函数3.10 条件函数3.11 字符串函数3.12 混合函数3.13 XPath 解析 XML 函数3.14 汇总统计函数(UDA...原创 2020-01-05 16:46:44 · 797 阅读 · 0 评论 -
【Hive】hive数据类型
文章目录hive数据类型原子数据类型(9种)复杂数据类型1. array2. map3. struct4. uniontypehive数据类型原子数据类型(9种)Hive 支持日期类型(老版本不支持),在 Hive 里日期一般都是用字符串来表示的,而常用的日期格式转化操作则是通过自定义函数进行操作,当然也可以直接指定为日期类型Hive 是用 Java 开发的,Hive 里的基本数据类...原创 2020-01-04 21:15:15 · 783 阅读 · 0 评论 -
【Hive】hive 视图特点及使用
文章目录hive 视图特点创建视图查看视图删除视图使用视图hive 视图特点和关系型数据库一样,Hive 也提供了视图的功能,不过请注意,Hive 的视图和关系型数据库的数据还是有很大的区别:只有逻辑视图,没有物化视图;视图只能查询,不能 Load/Insert/Update/Delete 数据;hive的视图仅仅相当于一个sql的快捷方式,为了提升hql语句的可读性视图在创建时候...原创 2020-01-04 18:10:24 · 4193 阅读 · 0 评论 -
【Hive】hive元数据库中的几张核心表
hive元数据库中的几张核心表在hive-site.xml配置了mysql连接信息,元数据库为hivedb<property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://localhost:3306/hivedb?createDatabaseIfNo...原创 2020-01-04 17:30:12 · 639 阅读 · 0 评论 -
【Hive】hive基本操作 ddl dml
文章目录1. ddl 操作1.1库操作1.1.1 创建库1.1.2 查看库1.1.3 切换库1.1.4 删除库1.2 表操作1.3 其它辅助操作dml 操作注意:hive 不区分大小写1. ddl 操作1.1库操作1.1.1 创建库语法: CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_...原创 2020-01-03 21:37:18 · 943 阅读 · 0 评论 -
【Hive】Hive 2.3.2 安装
文章目录1. 内嵌 Derby 版本1.1 下载安装包1.2 解压安装包1.3 配置环境变量1.4 初始化元数据1.5 启动hive,进入hive客户端1.6 derby方式缺点2. 外置 MySQL 版本1. 内嵌 Derby 版本2.1 下载安装包2.2 解压安装包2.3 配置环境变量2.4 安装mysql数据库2.5 修改配置文件3. Linux RPM 方式安装 MySQL3.1 检查以前...原创 2019-12-31 15:27:41 · 453 阅读 · 0 评论 -
【Hive】Hive基础知识
文章目录1. hive产生背景2. hive是什么3. hive的特点3.1优点:3.2 缺点:4. Hive 和 RDBMS 的对比5. hive架构5.1 用户接口层5.2 Thrift Server层5.3 元数据库层5.4 Driver核心驱动层6. hive的数据存储1. hive产生背景先分析mapreduce:mapreduce主要用于数据清洗或统计分析工作并且绝大多数的场景...原创 2019-12-29 11:12:30 · 292 阅读 · 0 评论 -
【MapReduce】Mapreduce基础知识整理 (七) 自定义输出
自定义输出默认输出:FileOutputFormatTextOutputFormatRecordWriterLineRecordWriter自定义输出:创建一个类继承FileOutputFormat重写getRecordWriter创建一个文件真正的写入器,继承RecordRecordWriter重写write() close()job中指定自定义的输...原创 2019-12-25 18:39:18 · 285 阅读 · 0 评论 -
【YARN】yarn 基础知识整理——hadoop1.0与hadoop2.0区别、yarn总结
文章目录原创 2019-12-21 22:49:47 · 1764 阅读 · 0 评论 -
【MapReduce】Mapreduce基础知识整理 (六) 全局计算器
文章目录原创 2019-12-21 17:22:22 · 628 阅读 · 0 评论 -
【MapReduce】Mapreduce基础知识整理 (五) 多Job串联、共同好友案例
文章目录前言多job串联案例求共同好友前言一个任务中包含多个mapreduce任务(job),多个job之间有相互的依赖关系的需要进行多job串联操作步骤: //将我们的普通的job转成Controlledjob //job.getCon/getLong... 都是来自job.xml ControlledJob cjob1=new ControlledJob(job1.getConf...原创 2019-12-18 13:49:15 · 315 阅读 · 0 评论 -
【YARN】hadoop yarn集群中如何管理cpu资源
介绍当用yarn进行资源管理时,yarn平台开发人员主要关注两个方面:资源分配(Resource allocation):具有所需资源和资源的最佳节点上分配应用的containers。强制和资源隔离使用(Enforcement and isolation of Resource usage):在任何节点上,不要让container超出其承诺的/保留的资源。将CPU作为一类资源将CPU...原创 2019-12-17 15:18:28 · 791 阅读 · 0 评论 -
【Ambari】设置yarn队列资源为绝对值[memory=10240,vcores=12,yarn.io/gpu=4]
目录1.介绍2 API方式修改资源队列步骤2.1 获取所有配置的tag和version2.2 获取指定文件的指定版本的配置2.3 修改配置2.4 刷新配置2.5 重启相应组件3 相关问题解释1.介绍hadoop 3.0以后支持以绝对值方式指定yarn资源队列memory vcores及gpu cores的大小,2.x版本只能指定每个队列使用内存资源的百分比。2 API方式修改资源队列步骤...原创 2019-12-17 15:15:30 · 4368 阅读 · 0 评论 -
【YARN】yarn 集群管理之memory、cpu 相关配置
目录yarn 管理内存相关配置yarn 管理vcores相关配置yarn 管理内存相关配置propertiesvalue描述descriptionyarn.nodemanager.resource.memory-mb-1可分配给containers的物理内存量(以MB为单位)。 如果设置为-1并且yarn.nodemanager.resource.detect-ha...原创 2019-12-17 15:12:32 · 1446 阅读 · 0 评论 -
【MapReduce】Mapreduce基础知识整理 (四) 自定义输入
目录1. 为什么需要自定义输入2. 默认输入源码分析2.1 org.apache.hadoop.mapreduce.Mapper2.2 org.apache.hadoop.mapred.MapTask2.3 org.apache.hadoop.mapreduce.lib.map.WrappedMapper2.4 org.apache.hadoop.mapreduce.task.MapContext...原创 2019-12-14 21:41:52 · 469 阅读 · 0 评论 -
【MapReduce】Mapreduce基础知识整理 (三) shuffle机制、MapJoin、ReduceJoin、倒排序索引
1. Mapreduce的Shuffle机制1.1概述一个mapreduce过程:map——>shuffle(排序、分组、分区、combiner)——>reduceMapReduce 中,mapper 阶段处理的数据如何传递给 reducer 阶段,是 MapReduce 框架中 最关键的一个流程,这个流程就叫 ShuffleShuffle: 数据混洗 ——(核心机制:数据...原创 2019-12-12 20:08:31 · 837 阅读 · 0 评论 -
【MapReduce】Mapreduce基础知识整理 (一) 基础介绍、task、并行度机制、切片机制、
目录1 Mapreduce 入门1.1 什么是 MapReduce1.2 为什么需要 MapReduce1.3 mapreduce编写规范2 MapReduce 程序的核心运行机制2.1 概述2.2 MapReduce 程序的运行流程2.3 MapTask 并行度决定机制2.4 切片机制2.5 maptask 并行度及切片机制源码分析2.5.1 maptask运行的并行度分析2.5.2 源码分析M...原创 2019-12-12 15:12:58 · 577 阅读 · 0 评论 -
【MapReduce】Mapreduce基础知识整理 (二) 常用组件和序列化代码实例
目录原创 2019-12-07 18:17:24 · 370 阅读 · 0 评论