
➹➹➹①Hadoop
文章平均质量分 78
爱是与世界平行
努力钻研学习中................
展开
-
Hive手册
Hive由Facebook实现并开源,基于Hadoop的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供**HQL(Hive SQL)**查询功能,底层数据是存储在HDFS上。Hive的本质是将SQL语句转换为 MapReduce任务运行,使不熟悉MapReduce的用户很方便地利用HQL处理和计算HDFS上的结构化的数据,适用于离线的批量数据计算。原创 2023-02-14 09:59:44 · 3735 阅读 · 0 评论 -
Hive的分区表与分桶表&内部表外部表
Hive将表划分为分区(partition)表和分桶(bucket)表。分区表在加载数据的时候可以指定加载某一部分数据,并不是全量的数据,可以让数据的部分查询变得更快。分桶表通常是在原始数据中加入一些额外的结构,这些结构可以用于高效的查询,例如,基于ID的分桶可以使得用户的查询非常的块。分区表与分桶表是可以一起使用的。原创 2023-02-14 09:59:03 · 1625 阅读 · 0 评论 -
CDH集群离线部署
修改Cloudera Agent配置文件/etc/cloudera-scm-agent/config.ini,配置server_host为主节点cdh-1。CDH的安装包都是rpm包如果使用rpm安装方式安装起来是比较复杂的,会有很多依赖问题需要解决,就需要使用yum帮助我们解决依赖问题。主流的有Apache Ambari和Cloudera Manager,相对应的Hadoop的发行版为HDP和CDH。Agent:安装在每台主机上。Server:负责软件安装、配置,启动和停止服务,管理服务运行的群集。原创 2022-11-07 16:58:14 · 934 阅读 · 0 评论 -
Hive大数据开发
Hive由Facebook实现并开源,基于Hadoop的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供**HQL(Hive SQL)**查询功能,底层数据是存储在HDFS上。Hive的本质是将SQL语句转换为 MapReduce任务运行,使不熟悉MapReduce的用户很方便地利用HQL处理和计算HDFS上的结构化的数据,适用于离线的批量数据计算。原创 2022-11-01 23:10:31 · 1615 阅读 · 0 评论 -
大数据平台搭建及集群规划
例如,假设总共需要存储 800TB 的数据,HDFS 的块副本数为 3,如果每个 DataNode 配置 10 块 8T 的硬盘,那么,采购 30 台 DataNode 服务器即可。在每个机柜中都可部署相应的 Hadoop 服务,可以看出,机柜 1 和 2 分别部署了 NameNode 的主、被节点,这两个主、备节点分开部署到不同的机柜,可以最大限度保证 NameNode 的可靠性,不建议将主、备节点部署到同一个机柜中,因为如果某个机柜发生故障(电源故障、网络故障),那么主、备将失去存在的意义。原创 2022-10-26 10:24:40 · 4300 阅读 · 1 评论 -
Hadoop HDFS命令
Hadoop HDFS命令1.创建与查看HDFS目录1.1创建HDFS目录1.2查看HDFS目录1.3查看HDFS完整目录1.4查看所有的HDFS子目录1.5一次性创建所有HDFS子目录2、从本地计算机复制文件到HDFS2.1复制本地文件到HDFS2.2列出文件内容2.3如果复制到HDFS的文件已经存在,会报错,此时可以使用-f 参数,强制复制重复文件到HDFS目录2.4从本地复制多个文件到HDF...原创 2019-09-26 10:56:34 · 829 阅读 · 0 评论 -
HBase
HBase一、HBase特点1.1海量存储1.2列式存储1.3极易扩展1.4高并发1.5稀疏二、 HBase架构三、HBase中的角色3.1 HMaster3.2 RegionServer3.3 其他组件四、HBase Shell操作4.1基本操作4.2表的操作五、HBase数据结构5.1 RowKey5.2 Column Family5.3 Cell5.4 Time Stamp5.5 命名空间六...原创 2019-07-05 16:17:34 · 401 阅读 · 0 评论 -
Linux环境Hadoop安装配置
Linux环境Hadoop安装配置1. 准备工作(1)linux配置IP(NAT模式)(2)linux关闭防火墙(3)设置主机名(4)设置映射(5)设置免密登录2. 安装jdk(1)上传安装包:(2)解压:(3)配置环境变量:3. 分发jdk到其他节点(1)发送文件:(2)验证:4. 安装hadoop(1)上传安装包:(2)解压:(3)配置环境变量:(4)修改配置文件:(5)修改slaves文件:...原创 2019-07-10 20:33:56 · 512 阅读 · 0 评论 -
MapReduce
MapReduce一、MapReduce概述1.1优缺点优点缺点1.2核心思想1.3MapReduce进程1.4常用数据序列化类型1.5MapReduce编程规范1.5.1 Mapper阶段1.5.2 Reducer阶段1.5.3 Driver阶段二、MapReduce框架原理2.1MapReduce工作流程2.2 Shuffle机制2.3 MapReduce开发总结1:输入数据接口:TextIn...原创 2019-07-05 15:22:44 · 778 阅读 · 0 评论 -
HDFS HA高可用
HDFS HA高可用一、HA概述二、HDFS-HA工作机制2.1 HDFS-HA自动故障转移工作机制三、HDFS-HA集群配置3.1 配置Zookeeper集群3.2配置HDFS-HA集群3.3启动HDFS-HA集群3.4配置HDFS-HA自动故障转移四、YARN-HA配置4.1 配置YARN-HA集群一、HA概述HA(High Available),即高可用(7*24小时不中断服务)。实现...原创 2019-07-05 11:22:52 · 394 阅读 · 0 评论 -
Hadoop之HDFS
Hadoop之HDFS一、HDFS概述1.1 HDFS使用场景1.2HDFS优缺点1.2.1 优点1.2.2 缺点二、HDFS组成架构2.1 HDFS文件块大小三、HDFS的Shell操作3.1 基本语法3.2常用命令启动Hadoop集群-ls: 显示目录信息-mkdir:在HDFS上创建目录-moveFromLocal:从本地剪切粘贴到HDFS-appendToFile:追加一个文件到已经存在的...原创 2019-07-05 10:59:27 · 722 阅读 · 0 评论 -
Hadoop优势,组成的相关架构,大数据生态体系下的模式
Hadoop优势,组成的相关架构,大数据生态体系下的模式一、Hadoop的优势二、Hadoop的组成2.1 HDFS架构2.2 Yarn架构2.3 MapReduce架构三、大数据生态体系3.1 系统项目架构图四、Hadoop的重要目录结构五、集群启动/停止方式5.1 各个服务组件逐一启动/停止5.2各个模块分开启动/停止(需提前配置SSH无密登录)*Hadoop官方网站:http://hado...原创 2019-07-05 09:49:31 · 563 阅读 · 0 评论