
Hadoop
hadoop集群介绍
子清.
这个作者很懒,什么都没留下…
展开
-
hadoop集群启动脚本
在/root/bin目录下创建脚本vim hdp.sh添加如下内容#!/bin/bashif [ $# -lt 1 ]then echo "No Args Input..." exit ;ficase $1 in"start") echo " =================== 启动 hadoop集群 ===================" echo " --------------- 启动 hdfs ---------------"原创 2021-02-07 11:36:08 · 2201 阅读 · 0 评论 -
ZK集群启动停止脚本
1)在hadoop102的/root/bin目录下创建脚本vim zk.sh在脚本中编写如下内容#!/bin/bashcase $1 in"start"){ for i in hadoop102 hadoop103 hadoop104 do echo ---------- zookeeper $i 启动 ------------ ssh $i "/opt/module/zookeeper-3.5.7/bin/zkServer.sh start" done};;"s原创 2021-02-04 19:58:28 · 367 阅读 · 0 评论 -
Hadoop支持LZO压缩配置详细(附文件)
支持LZO压缩配置1)hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译,编译步骤如下。Hadoop支持LZO0. 环境准备maven(下载安装,配置环境变量,修改sitting.xml加阿里云镜像)gcc-c++zlib-develautoconfautomakelibtool通过yum安装即可,yum -y install gcc-c++ lzo-devel zlib-devel a原创 2021-02-04 16:55:45 · 2677 阅读 · 1 评论 -
Attempting to operate on hdfs namenode as root
写在最前注意:1、master,slave都需要修改start-dfs.sh,stop-dfs.sh,start-yarn.sh,stop-yarn.sh四个文件2、如果你的Hadoop是另外启用其它用户来启动,记得将root改为对应用户HDFS格式化后启动dfs出现以下错误:[root@master sbin]# ./start-dfs.shStarting namenodes on [master]ERROR: Attempting to operate on hdfs namenode a转载 2021-02-04 15:20:23 · 595 阅读 · 0 评论 -
HBase(总)小白入门知识汇总
文章目录1.HBase基础介绍1.1 NoSQL简介1.1.1什么是NoSQL1.1.2为什么使用NoSQL1.1.3NoSQL的特点1.1.4NoSQL基本概念1.1.5NoSQL分类1.1.6NoSQL和BI、大数据的关系1.2.HBase介绍1.2.1HBase概述1.2.2HBase发展历史1.2.3HBase用户群体1.2.4HBase应用场景1.2.5Apache HBase生态圈1.2.6HBase架构1.2.7HBase数据管理1.2.8HBase架构特点1.3.HBase数据模型1.3.1原创 2020-10-14 18:09:22 · 418 阅读 · 0 评论 -
Sqoop 之 数据迁移
文章目录1.RDBMS到HDFS1.1全部导入1.2导入指定列 --columns1.3导入指定行--where1.4查询导入1.5增量导入数据1.6导入文件格式2.RDBMS到Hive3.RDBMS到Hbase4.HIVE/HDFS到RDBMS在Sqoop中,“导入”概念指:从非大数据集群(RDBMS)向大数据集群(HDFS,HIVE,HBASE)中传输数据,叫做:导入,即使用import关键字。1.RDBMS到HDFS确定Mysql服务开启正常在Mysql中新建一张表并插入一些数据原创 2020-09-29 19:51:59 · 468 阅读 · 0 评论 -
HBase(四)之 Hive与HBase的集成
文章目录1. HBase与Hive的对比2.HBase与Hive集成使用2.1Hive与HBase集成使用场景2.2Hive与HBase集成原理2.3实现2.3.1案例一2.3.2案例二1. HBase与Hive的对比1.Hive(1) 数据仓库Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询。(2) 用于数据分析、清洗Hive适用于离线的数据分析和清洗,延迟较高。(3) 基于HDFS、MapReduceHive存储的数据依旧在D原创 2020-09-28 16:45:50 · 271 阅读 · 0 评论 -
HBase(三)之 API的使用
文章目录1.添加依赖2.Hbase核心API2.1 获取Configuration对象2.2 创建表2.3插入数据2.4打jar包并使用1.添加依赖新建maven项目。并添加依赖 <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <version>1.2.0</原创 2020-09-28 17:11:49 · 975 阅读 · 0 评论 -
HBase(二)之 常用命令
文章目录1.其他操作2 表的操作2.1. list:列出HBase的所有表2.2 create:创建一个表2.3 desc:提供了一个表的描述2.4 disable**:** 禁用表2.5 enable**:** 启用一个表2.6. exists**:** 验证表是否存在2.7. count:统计行数2.8. drop**:** 从HBase中删除表2.9 truncate:清空表2.10 get_splits:获取Region2.11 alter:修改表3.数据操作3.1 scan*原创 2020-09-26 15:25:28 · 901 阅读 · 0 评论 -
Sqoop的安装与使用
文章目录1.环境准备2.下载安装3.修改配置文件4.拷贝 JDBC 驱动5.验证 Sqoop6.测试 Sqoop 是否能够成功连接数据库注意1.注意2.1.环境准备安装 Sqoop 的前提是已经具备 Java 和 Hadoop、Hive、ZooKeeper、HBase 的 环境。java环境配置hadoop环境配置hive环境配置zookeeper环境配置hbase环境配置2.下载安装所需的安装包:链接: https://pan.baidu.com/s/1Uazwo7rHJdwRHfudM原创 2020-09-26 14:23:34 · 1976 阅读 · 0 评论 -
HBase(一)之基础介绍
文章目录1.NoSQL简介1.1什么是NoSQL1.2为什么使用NoSQL1.3NoSQL的特点1.4NoSQL基本概念1.5NoSQL分类1.6NoSQL和BI、大数据的关系2.HBase介绍2.1HBase概述2.2HBase发展历史2.3HBase用户群体2.4HBase应用场景2.5Apache HBase生态圈2.6HBase架构2.7HBase数据管理2.8HBase架构特点1.NoSQL简介1.1什么是NoSQLNoSQL:not only SQL,非关系型数据库NoSQL是一个通用术原创 2020-09-24 17:13:33 · 318 阅读 · 0 评论 -
Hive(总)看完这篇,别说你不会Hive!
文章目录1.Hive入门1.1什么是Hive1.2 Hive的优缺点1.2.1 优点1.2.2 缺点1.3Hive架构原理2.Hive安装2.1Hive安装2.2HiveJDBC访问2.2.1启动hiveserver2服务2.2.2连接hiveserver2服务2.2.3注意2.3Hive常用交互命令2.4Hive其他命令操作2.5Hive常见属性配置2.5.1数据仓库位置配置2.5.2查询后信息显示配置2.5.3运行日志信息配置3.Hive数据类型3.1基本数据类型3.2集合数据类型3.3类型转化4.DD原创 2020-09-24 16:11:28 · 82784 阅读 · 22 评论 -
Hive(八)之 性能优化
8.性能优化8.1 Hive事务1.事务(Transaction )指一组单元化操作,这些操作要么都执行,要么都不执行ACID特性:Atomicity:原子性Consistency:一致性Isolation:隔离性Durability:持久性2.Hive事务的特点和局限V0.14版本开始支持行级事务支持INSERT、DELETE、UPDATE(v2.2.0开始支持Merge)文件格式只支持ORC局限表必须是bucketed表需要消耗额外的时间、资源和空间不支持开原创 2020-09-22 22:42:45 · 344 阅读 · 0 评论 -
Hive(七)之 Hive函数与UDF函数
文章目录7.函数7.1Hive函数分类7.2内置函数7.2.1字符函数7.2.2 类型转换函数和数学函数7.2.3 日期函数7.2.4 集合函数7.2.5 条件函数7.2.6 聚合函数和表生成函数7.3 自定义UDF函数7.函数7.1Hive函数分类从输入输出角度分类标准函数:一行数据中的一列或多列为输入,结果为单一值聚合函数:多行的零列到多列为输入,结果为单一值表生成函数:零个或多个输入,结果为多列或多行从实现方式分类内置函数自定义函数:UDF:自定义标准函数UDAF:自定义聚合函原创 2020-09-22 20:06:56 · 274 阅读 · 0 评论 -
Hive(六)之 Hive查询
文章目录6.查询6.1 基本查询(Select…From)6.1.1 全表和特定列查询6.1.2 列别名6.1.3 算术运算符6.1.4 常用函数6.1.5 Limit语句6.2 Where语句6.2.1 比较运算符(Between/In/ Is Null)6.2.2 Like和RLike6.2.3 逻辑运算符(And/Or/Not)6.3 分组6.3.1 Group By语句6.3.2 Having语句6.4 Join语句6.4.1 等值Join6.4.2 表的别名6.4.3 内连接6.4.4 左外连接6原创 2020-09-22 19:13:38 · 453 阅读 · 0 评论 -
zepplin的安装及使用
文章目录1.下载安装包2.上传安装包3.修改配置文件3.1修改zeppelin-site.xml文件3.2修改zeppelin-env.sh文件4.启动zeppelin5.配置hive解释器5.1环境和变量配置5.2 在web界面配置集成hive6.使用Zepplin的hive解释器1.下载安装包官网直达选择zeppelin-0.8.1-bin-all.tgz2.上传安装包上传到Linux的opt文件夹,并解压缩tar -zvxf zeppelin-0.8.1-bin-all.tgz改名原创 2020-09-19 14:48:04 · 881 阅读 · 0 评论 -
Hive(五)之 Hive数据操作DML语言
文章目录5.DML数据操作5.1 数据导入5.1.1 向表中装载数据(Load)5.1.2 通过查询语句向表中插入数据(Insert)5.1.3 查询语句中创建表并加载数据(As Select)5.1.4 创建表时通过Location指定加载数据路径5.1.5 Import数据到指定Hive表中5.2 数据导出5.2.1 Insert导出5.2.2 Hadoop命令导出到本地5.2.3 Hive Shell 命令导出5.2.4 Export导出到HDFS上5.2.5 Sqoop导出5.3 清除表中数据(Tr原创 2020-09-18 09:33:28 · 173 阅读 · 0 评论 -
Hive(三)之 Hive数据类型
目录3.Hive数据类型3.1基本数据类型3.2集合数据类型3.3类型转化3.Hive数据类型3.1基本数据类型Hive数据类型Java数据类型长度例子TINYINTbyte1byte有符号整数20SMALINTshort2byte有符号整数20INTint4byte有符号整数20BIGINTlong8byte有符号整数20BOOLEANboolean布尔类型,true或者falseTRUE FALSEFLOATf原创 2020-09-16 19:15:17 · 386 阅读 · 0 评论 -
Hive(二)之 Hive安装
文章目录2.Hive安装2.1Hive安装2.2HiveJDBC访问2.2.1启动hiveserver2服务2.2.2连接hiveserver2服务2.2.3注意2.3Hive常用交互命令2.4Hive其他命令操作2.5Hive常见属性配置2.5.1数据仓库位置配置2.5.2查询后信息显示配置2.5.3运行日志信息配置2.Hive安装2.1Hive安装《Hive安装教程》2.2HiveJDBC访问2.2.1启动hiveserver2服务hiveserver22.2.2连接hiveserve原创 2020-09-16 19:13:35 · 316 阅读 · 1 评论 -
Hive(一)之Hive入门
文章目录1.Hive入门1.1什么是Hive1.2 Hive的优缺点1.2.1 优点1.2.2 缺点1.3Hive架构原理1.Hive入门1.1什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行在Yarn上1.原创 2020-09-16 19:10:01 · 290 阅读 · 0 评论 -
Yarn资源调度器
文章目录1.Yarn基本架构2.Yarn工作机制3.作业提交全过程4.资源调度器4.1先进先出调度器(FIFO)4.2容量调度器(Capacity Scheduler)4.3公平调度器(Fair Scheduler)5.任务的推测执行Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。1.Yarn基本架构YARN主要由ResourceManager、NodeManager、Applicatio原创 2020-09-15 20:16:36 · 192 阅读 · 0 评论 -
Hadoop序列化
文章目录1.序列化概述1.1什么是序列化1.2为什么要序列化1.3为什么不用java的序列化2.常用数据序列化类型3.自定义bean对象实现序列化接口(Writable)4.序列化案例实操4.1需求4.2需求分析4.3编写MapReduce程序1.序列化概述1.1什么是序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输。反序列化就是将收到的字节序列(或其他数据传输协议)或者是硬盘的持久化数据,转成内存中的对象。1.2为什么要序列化一般来说,“活的”原创 2020-09-15 19:02:17 · 139 阅读 · 0 评论 -
分布式应用协调服务ZooKeeper
1.ZooKeeper简介Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目Zookeeper=文件系统+通知机制Zookeeper从设计模式上来看是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册一旦数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应,从而实现集群中类似Master/Slave管理模式2.ZooKeeper数据结构znodeZ原创 2020-09-15 15:43:39 · 144 阅读 · 0 评论 -
分布式资源调度框架YARN
文章目录1.YARN的前世今生2.YARN概述3.YARN的基本架构核心组件3.1ResouceManager3.2NodeManager3.3ApplicationMaster3.4Container4. YARN的工作机制5.启动JobHistoryServer6.YARN的资源调度器7.YARN常用命令1.YARN的前世今生Hadoop1.x版本中最大的问题是资源问题对数据的处理和资源调度主要依赖MapReduce完成,只能运行MapReduce程序JobTracker负责资源管理和程序调原创 2020-09-15 15:12:48 · 390 阅读 · 0 评论 -
MapReduce入门
文章目录1.MapReduce定义2.MapReduce优缺点2.1优点2.2缺点3.MapReduce核心思想4.MapReduce进程5.MapReduce编程规范5.1.Mapper阶段5.2.Reducer阶段5.3.Driver阶段6.WordCount案例实操6.1需求6.2需求分析6.3环境准备6.4编写程序1.MapReduce定义MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代原创 2020-09-15 08:55:16 · 190 阅读 · 0 评论 -
Hive安装教程
1.环境准备安装hadoop 以及 zookeeper、mysql《适合小白的配置hadoop环境教程》《zookeeper的安装与配置》《Linux环境配置MySQL(附文件)》2.解压安装本教程所需的包:链接: https://pan.baidu.com/s/1IgIOW9xXW11tJWcJbquQ2w 提取码: uk5i将压缩包上传到opt文件夹,并解压tar -zxvf hive-1.1.0-cdh5.14.2.tar.gz将文件夹改名为hive:mv hive-1.1.0-cd原创 2020-09-14 21:09:08 · 4979 阅读 · 1 评论 -
HBASE安装教程
文章目录1.环境准备2.解压安装3.配置环境变量4.配置文件配置hbase-env.sh配置 hbase-site.sh1.环境准备安装了Hadoop(如果只是安装单机版hbase,zookeeper使用hbase内置的即可)如果需要安装伪分布式或完整分布式则需要先安装zookeeper《适合小白的配置hadoop环境教程》《zookeeper的安装与配置》2.解压安装教程所需的包:链接: https://pan.baidu.com/s/1uM6dAHhP9_ttHViyZsSi-A 提取码:原创 2020-09-14 20:31:32 · 1863 阅读 · 0 评论 -
MapReduce原理及编程
文章目录什么是MapReduce?MapReduce的设计思想MapReduce特点MapReduce实现WordCountMapReduce执行过程Hadoop V1 MR引擎Hadoop V2 YARNHadoop及YARN架构Hadoop2 MR在Yarn上运行流程InputSplit(输入分片)Shuffle阶段Key&Value类型MapReduce编程模型InputFormat接口Mapper类Combiner类Partitioner类Reducer类OutputFormat接口编写M/原创 2020-09-10 19:29:34 · 293 阅读 · 0 评论 -
大数据概况及Hadoop生态系统
大数据概况及Hadoop生态系统文章目录大数据概况及Hadoop生态系统什么是大数据?大数据特征4V特征固有特征分布式计算Hadoop是什么?Hadoop发展及版本为什么使用Hadoop?Hadoop vs. RDBMSHadoop生态圈ZookeeperHadoop架构HDFSHDFS特点HDFS CLI (命令行)hdfs dfsadminHDFS角色HDFS架构HDFS副本机制HDFS高可用(High Availability)HDFS读文件HDFS写文件HDFS文件格式使用Java实现HDFS文件原创 2020-09-09 19:20:05 · 297 阅读 · 0 评论 -
配置Hadoop-HA集群
1.环境准备修改IP地址与hostname部署zookeeper:《zookeeper的安装与配置》部署hadoop:《搭建hadoop集群》设置时区同步:《Linux时间同步》2.修改配置文件2.1修改core-site.xml<configuration><!--指定hdfs的nameserve为ns--> <property> <name>fs.defaultFS</name> <value>hdfs:/原创 2020-09-08 17:46:28 · 186 阅读 · 0 评论 -
zookeeper的安装与配置
1.安装解压本文所使用的软件包:链接: https://pan.baidu.com/s/1sGarDJq17D9c_nthb9gb_Q 提取码: 76q8解压Zookeeper安装包到/opt/目录下tar -zxvf zookeeper-3.4.6.tar.gz改名文件夹为zkprmv zookeeper-3.4.6 zkpr在/opt/zkpr/这个目录下创建zkdata、zkdatalogs文件夹mkdir zkdatamkdir zkdatalogs重命名/o原创 2020-09-08 16:06:48 · 1019 阅读 · 0 评论 -
Linux时间同步
时间同步的方式:找一个机器,作为时间服务器,所有的机器与这台集群时间进行定时的同步,比如,每隔十分钟,同步一次时间。配置时间同步实操:1. 时间服务器配置(必须root用户)1.1检查ntp是否安装rpm -qa|grep ntp1.2安装ntpyum install -y ntp1.3修改ntp配置文件vi /etc/ntp.conf修改1(授权192.168.83.0网段上的所有机器可以从这台机器上查询和同步时间)#restrict 192.168.83.0 mask 255.原创 2020-09-08 14:07:06 · 614 阅读 · 0 评论 -
搭建hadoop集群
1.虚拟机准备首先通过 该文搭建好一台服务器hadoop搭建如何克隆出两个服务器修改:mac地址ip地址主机名主机列表添加主机互信scp(secure copy)安全拷贝scp定义:scp可以实现服务器与服务器之间的数据拷贝。(from server1 to server2)基本语法scp -r $pdir/$fname $user@hadoop$host:$pdir命令 递归 要拷贝的文件路径/名称原创 2020-09-07 22:32:49 · 355 阅读 · 0 评论 -
用java操作hdfs
环境准备首先使用idea创建maven工程,继 maven的安装、配置环境变量以及使用 之后在中间导入相应的依赖<!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-common --><dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artif原创 2020-09-07 15:45:19 · 329 阅读 · 0 评论 -
Windows下配置hadoop环境
1.解压hadoop包到一个win目录这里hadoop包需要管理员权限才能解压,只需要用管理员身份运行解压软件,然后再打开压缩包就可以解压了2.把hadoop-bin.rar解压到hadoop的bin目录下面3.hadoop.dll复制到windows/system32下面4.配置hadoop环境变量增加系统变量HADOOP_HOME,值是下载的zip包解压的目录在系统变量path里增加%HADOOP_HOME%\bin%HADOOP_HOME%\sbin5.重启电脑和idea原创 2020-09-04 11:10:07 · 325 阅读 · 0 评论 -
适合小白的配置hadoop环境教程
1.首先需要配置jdk环境,如没有配置请查看之前的教程jdk环境配置点击直达本文使用的是hadoop-2.6.0-cdh5.14.2.tar.gz2.首先上传压缩包到/opt文件夹,并输入以下命令解压tar -zxvf hadoop-2.6.0-cdh5.14.2.tar.gz然后将解压的文件夹改名mv hadoop-2.6.0-cdh5.14.2/ hadoop3.配置环境变量vi /etc/profile插入export HADOOP_HOME=/opt/hadoopexp原创 2020-09-03 18:40:08 · 1897 阅读 · 0 评论