
Hadoop
文章平均质量分 76
Caron_xcb
但行耕耘,莫问收获
展开
-
大数据——使用prometheus+grafana监控clickhouse集群相关指标
一、准备prometheus下载https://prometheus.io/download/#prometheus原创 2021-09-17 18:52:08 · 1264 阅读 · 0 评论 -
Apache Dolphinscheduler —— CDH6.3.2集群模式部署(扩容)
一、前期准备参考文章: https://blog.youkuaiyun.com/qq_42502354/article/details/116537022?spm=1001.2014.3001.55011、将新的机器选择同一版本安装相应 Apache Dolphinscheduler查看配置文件安装位置installPath="/opt/dolphinscheduler"解压安装包到该目录2、添加 jar 包还需要手动添加 [ mysql-connector-java 驱动 jar ] 包到 lib 目录原创 2021-07-30 11:24:16 · 1122 阅读 · 0 评论 -
大数据——ML SQL 2.1.0 安装配置
ML SQL 2.1.0 安装配置一、准备下载地址:http://download.mlsql.tech/例如:mlsql-engine_2.4-2.1.0-SNAPSHOT.tar.gz2.4以及3.0 都表示依赖的Spark版本2.1.0 表示MLSQL Engine的自身的版本二、mlsql-console配置1、解压tar -zxvf mlsql-console-2.1.0-SNAPSHOT.tar.gz -C /opt/moudle/tar -zxvf mlsql-engine原创 2021-07-16 14:10:36 · 534 阅读 · 7 评论 -
大数据可视化——Superset1.0版本安装、数据源配置、各种错误解决(精华)
1、准备Anaconda3环境注意:建议使用python3.7, 兼容性更好配置conda国内镜像 conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main conda config --set show_channe原创 2021-02-10 11:56:02 · 1741 阅读 · 4 评论 -
大数据——Hive on ElasticSearch 配置实战(CDH6.3.2)
1、下载相应的jar包2、2、添加jar配置HIVE_AUX_JARS_PATH=/usr/share/hive3、建表语句1、Elecsearch 存在 { "_index": "es_hive_test", "_type": "doc", "_id": "w", "_score": 1, "_source": { "id": "23", "area": "hangzhou", "name": "lisi5"原创 2021-02-03 14:46:02 · 771 阅读 · 0 评论 -
大数据——clickhouse20.11.4.13在线安装新版本、配置与使用
文章目录一、简介二、准备工作1、CentOS取消打开文件数限制2、 CentOS取消SELINUX3、 关闭防火墙4、 安装依赖三、在线安装1、安装1、安装命令2、配置文件2、副本1、副本写入流程2、配置四、表引擎1、TinyLog2、Memory3、MergeTree4、二级索引5、ReplacingMergeTree6、SummingMergeTree五、数据类型1、 整型2、 浮点型3、布尔型4、Decimal 型5、字符串6、枚举类型7、时间类型8、数组六、SQL操作1、Insert2、Update原创 2021-01-25 18:51:28 · 1010 阅读 · 0 评论 -
大数据学习hadoop3.1.3——Presto-client安装
Presto命令行Client安装1)下载Presto的客户端https://repo1.maven.org/maven2/com/facebook/presto/presto-cli/0.196/presto-cli-0.196-executable.jar2)将presto-cli-0.196-executable.jar上传到hadoop101的/opt/module/presto文件夹下3)修改文件名称 mv presto-cli-0.196-executable.jar prestoc原创 2020-07-16 16:59:46 · 879 阅读 · 0 评论 -
大数据学习hadoop3.1.3——kylin即席查询——Presto server安装
Presto是一个开源的分布式SQL查询引擎,数据量支持GB到PB字节,主要用来处理秒级查询的场景,不能处理OLTP。Presto架构Presto优缺点Presto Server安装1、将presto-server-0.196.tar.gz导入hadoop102的/opt/software目录下,并解压到/opt/module目录 tar -zxvf presto-server-0.196.tar.gz -C /opt/module/2、修改名称为prestomv presto-serve原创 2020-07-16 16:53:11 · 455 阅读 · 0 评论 -
大数据学习hadoop3.1.3——kylin——Zepplin安装使用
1)Zepplin安装与启动(1)将zeppelin-0.8.0-bin-all.tgz上传至Linux(2)解压zeppelin-0.8.0-bin-all.tgz之/opt/module tar -zxvf zeppelin-0.8.0-bin-all.tgz -C /opt/module/(3)修改名称 mv zeppelin-0.8.0-bin-all/ zeppelin(4)修改默认端口号web默认端口号为8080<property> <name>zep原创 2020-07-08 20:05:17 · 294 阅读 · 0 评论 -
大数据学习hadoop3.1.3——kylin安装与使用
Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。Kylin依赖环境安装Kylin前需先部署好Hadoop、Hive、Zookeeper、HBase,并且需要在/etc/profile中配置以下环境变量HADOOP_HOME,HIVE_HOME,HBASE_HOME,记得source使其生效。Kylin搭建1)上传Kylin安装原创 2020-07-08 18:05:54 · 701 阅读 · 0 评论 -
大数据hadoop3.1.3学习笔记——HBase的安装配置(高可用配置可选)
1 Zookeeper正常部署首先保证Zookeeper集群的正常部署,并启动之:使用自定义脚本启动: zk start2 Hadoop正常部署Hadoop集群的正常部署并启动: sbin/start-dfs.sh sbin/start-yarn.sh3 HBase的解压解压Hbase到指定目录: tar -zxvf hbase-2.0.5-bin.tar.gz -C /opt/module mv /opt/module/hbase-2.0.5 /opt/module/hbase原创 2020-06-19 18:47:16 · 2315 阅读 · 2 评论 -
大数据学习hadoop3.1.3——Sqoop安装
1 下载并解压1)下载地址:http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/2)上传安装包sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz到hadoop102的/opt/software路径中3)解压sqoop安装包到指定目录,如: tar -zxf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt/module/4)解压sqoop安装包到指定目录,如: mv s原创 2020-06-13 08:40:33 · 6232 阅读 · 3 评论 -
大数据学习hadoop3.1.13——Hive(实战安装Tez引擎)
Tez是一个Hive的运行引擎,性能优于MR1)将tez安装包拷贝到集群,并解压tar包 mkdir /opt/module/tez tar -zxvf /opt/software/tez-0.10.1-SNAPSHOT-minimal.tar.gz -C /opt/module/tez2)上传tez依赖到HDFS hadoop fs -mkdir /tez hadoop fs -put /opt/software/tez-0.10.1-SNAPSHOT.tar.gz /tez3)新建t原创 2020-06-12 23:44:35 · 1348 阅读 · 9 评论 -
大数据学习hadoop3.1.13——Hive操作命令相关
一、HiveJDBC访问1)启动beeline客户端 bin/beeline -u jdbc:hive2://hadoop101:10000 -n caron2)看到如下界面Connecting to jdbc:hive2://hadoop101:10000Connected to: Apache Hive (version 3.1.2)Driver: Hive JDBC (version 3.1.2)Transaction isolation: TRANSACTION_REPEATABLE原创 2020-06-12 23:37:12 · 538 阅读 · 0 评论 -
大数据学习hadoop3.1.13——Hive配置(实战连接MySQL·)
一、什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计工具。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序(1)Hive处理的数据存储在HDFS(2)Hive分析数据底层的实现是MapReduce(3)执行程序运行在Yarn上二、Hive安装注意:安装Hive之前安装MySQL数据库1)把apache-hive-3.1.2-bin.tar.gz上传到linux原创 2020-06-12 22:49:17 · 873 阅读 · 0 评论 -
大数据学习hadoop3.1.3——集群节点以及磁盘数据均衡
1)节点间数据均衡开启数据均衡命令: start-balancer.sh –threshold 10对于参数10,代表的是集群中各个节点的磁盘空间利用率相差不超过10%,可根据实际情况进行调整。停止数据均衡命令: stop-balancer.sh2)磁盘间数据均衡(1)生成均衡计划 hdfs diskbalancer -plan hadoop102(2)执行均衡计划 hdfs diskbalancer -execute hadoop102.plan.json(3)查看当前均衡任务的执行原创 2020-05-12 18:44:06 · 568 阅读 · 0 评论 -
集群时间同步问题解决的方法
1)时间服务器配置(必须root用户)(1)在所有节点关闭ntp服务和自启动 sudo systemctl stop ntpd sudo systemctl disable ntpd(2)修改ntp配置文件vim /etc/ntp.conf修改内容如下a)修改1(授权192.168.1.0-192.168.1.255网段上的所有机器可以从这台机器上查询和同步时间)#restrict 192.168.1.0mask 255.255.255.0 nomodify notrap为 res原创 2020-05-12 14:18:32 · 991 阅读 · 0 评论 -
大数据学习hadoop3.1.3——Azkaban安装与配置--集群搭建(入门)
一、Azkaban特点Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。它有如下功能特点:1)Web用户界面2)方便上传工作流3)方便设置任务之间的关系4)调度工作流5)认证/授权(权限的工作)6)能够杀死并重新启动工作流7)模块化和可插拔的插件机制8)项目工作区9)工作流和任务的日志记录和审计二、原创 2020-05-09 11:26:31 · 829 阅读 · 4 评论 -
大数据学习hadoop3.1.3——Kafka监控(Kafka Eagle)(重点)
1)修改kafka启动命令进入kafka/bin目录下修改kafka-server-start.sh命令中 if [ "x$KAFKA_HEAP_OPTS" = "x" ]; then export KAFKA_HEAP_OPTS="-Xmx1G -Xms1G" fi为 if [ "x$KAFKA_HEAP_OPTS" = "x" ]; then export KAFKA_HEAP_OPTS="-server -Xms2G -Xmx2G -XX:PermSize=128m原创 2020-05-09 09:57:10 · 375 阅读 · 0 评论 -
大数据hadoop3.1.3——Hadoop HA高可用学习笔记(安装与配置)
一、HA概述1)所谓HA(High Availablity),即高可用(7*24小时不中断服务)。2)实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。3)Hadoop2.0之前,在HDFS集群中NameNode存在单点故障SPOF(Single Points Of Failure)。4)NameNode主要在以下两个方面影响HD...原创 2020-05-07 20:57:23 · 2150 阅读 · 2 评论 -
大数据学习hadoop3.1.3——Flume企业开发案例三(聚合)
1、案例需求:hadoop101上的Flume-1监控文件/opt/module/group.log,hadoop102上的Flume-2监控某一个端口的数据流,Flume-1与Flume-2将数据发送给hadoop103上的Flume-3,Flume-3将最终数据打印到控制台。2、需求分析3、实现步骤:(1)准备工作分发Flume xsync flume在hadoop101、...原创 2020-05-07 18:58:49 · 300 阅读 · 2 评论 -
大数据学习hadoop3.1.3——Flume企业开发案例二(负载均衡和故障转移)
1、案例需求使用Flume1监控一个端口,其sink组中的sink分别对接Flume2和Flume3,采用FailoverSinkProcessor,实现故障转移的功能。2、需求分析3、实现步骤(1)准备工作在/opt/module/flume/job目录下创建group2文件夹 cd group2/(2)创建flume-netcat-flume.conf配置1个netcat s...原创 2020-05-07 18:42:27 · 306 阅读 · 0 评论 -
大数据学习hadoop3.1.3——Flume企业开发案例一(复制和多路复用)
1、案例需求使用Flume-1监控文件变动,Flume-1将变动内容传递给Flume-2,Flume-2负责存储到HDFS。同时Flume-1将变动内容传递给Flume-3,Flume-3负责输出到LocalFileSystem。2、需求分析3、实现步骤(1)准备工作在/opt/module/flume/job目录下创建group1文件夹 cd group1/在/opt/modu...原创 2020-05-07 18:29:04 · 192 阅读 · 0 评论 -
大数据学习hadoop3.1.3——kafka安装与集群搭建(入门)
一、安装部署1、jar包下载http://kafka.apache.org/downloads2、解压安装包 tar -zxvf kafka_2.11-2.4.1.tgz -C /opt/module/3、修改解压后的文件名称 mv kafka_2.11-2.4.1/ kafka4、在/opt/module/kafka目录下创建logs文件夹 mkdir logs5、修改配置文件...原创 2020-05-06 19:20:37 · 2441 阅读 · 0 评论 -
大数据学习hadoop3.1.3——Flume学习进阶概念(事务、原理、拓扑结构)
1 Flume事务2 Flume Agent内部原理重要组件:1)ChannelSelectorChannelSelector的作用就是选出Event将要被发往哪个Channel。其共有两种类型,分别是Replicating(复制)和Multiplexing(多路复用)。ReplicatingSelector会将同一个Event发往所有的Channel,Multiplexing会根据...原创 2020-05-06 09:22:29 · 233 阅读 · 0 评论 -
大数据学习hadoop3.1.3——Flume基础配置(入门)
一、Flume概述1、Flume定义Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。主要作用:实时读取服务器本地磁盘的数据,将数据写入到HDFS2、Flume基础架构Flume组成架构如下图所示(1)AgentAgent是一个JVM进程,它以事件的形式将数据从源头送至目的。Agent主要有3个部分...原创 2020-05-06 09:13:43 · 1240 阅读 · 0 评论 -
大数据学习hadoop3.1.3——Flume开发自定义Sink(实战开发)
介绍Sink不断地轮询Channel中的事件且批量地移除它们,并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent。Sink是完全事务性的。在从Channel批量删除数据之前,每个Sink用Channel启动一个事务。批量事件一旦成功写出到存储系统或下一个Flume Agent,Sink就利用Channel提交事务。事务一旦被提交,该Channel从自己的内部缓冲区删...原创 2020-05-05 22:39:57 · 264 阅读 · 0 评论 -
大数据学习hadoop3.1.3——Flume开发自定义Source(实战开发)
实现步骤1、创建Maven工程添加依赖可以查看相关依赖: https://blog.youkuaiyun.com/qq_42502354/article/details/1059380292、编写代码package com.caron.flume.source;import org.apache.flume.Context;import org.apache.flume.Event;imp...原创 2020-05-05 21:52:23 · 305 阅读 · 0 评论 -
大数据学习hadoop3.1.3——Flume开发自定义Interceptor(实战开发)
1)案例需求使用Flume采集服务器本地日志,需要按照日志类型的不同,将不同种类的日志发往不同的分析系统。2)需求分析在实际的开发中,一台服务器产生的日志类型可能有很多种,不同类型的日志可能需要发送到不同的分析系统。此时会用到Flume拓扑结构中的Multiplexing结构,Multiplexing的原理是,根据event中Header的某个key的值,将不同的event发送到不同的Cha...原创 2020-05-05 20:40:55 · 287 阅读 · 0 评论 -
大数据学习hadoop3.1.3——Flume相关数据流监控Ganglia的安装与部署--测试
1、Ganglia的安装与部署1、集群里都需要安装ganglia sudo yum install -y epel-release2、在101安装web,meta和monitor sudo yum -y install ganglia-gmetad ganglia-web ganglia-gmond3、在102、103安装monitor sudo yum -y install ga...原创 2020-05-05 19:53:36 · 306 阅读 · 0 评论 -
大数据Hadoop3.1.3——Zookeeper集群分布式搭建
1 分布式安装部署1)集群规划在hadoop101、hadoop102和hadoop103三个节点上部署Zookeeper。2)解压安装(1)在hadoop101解压Zookeeper安装包到/opt/module/目录下 tar -zxvf zookeeper-3.5.7.tar.gz -C /opt/module/3)配置服务器编号(1)在/opt/module/zookeepe...原创 2020-04-24 22:38:51 · 906 阅读 · 0 评论 -
大数据Hadoop3.1.3——Zookeeper集群本地搭建
1 本地模式安装部署1)安装前准备(1)安装Jdk(2)拷贝Zookeeper安装包到Linux系统下(3)解压到指定目录 tar -zxvf zookeeper-3.5.7.tar.gz -C /opt/module/2)配置修改(1)将/opt/module/zookeeper-3.5.7/conf这个路径下的zoo_sample.cfg修改为zoo.cfg; mv zoo_s...原创 2020-04-24 22:20:52 · 574 阅读 · 0 评论 -
大数据Hadoop3.1.3——HDFS小文件弊端以及优化方法
1 HDFS小文件弊端HDFS上每个文件都要在NameNode上建立一个索引,这个索引的大小约为150byte,这样当小文件比较多的时候,就会产生很多的索引文件,一方面会大量占用NameNode的内存空间,另一方面就是索引文件过大使得索引速度变慢。2 HDFS小文件解决方案1、小文件优化的方向:(1)在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS。(2)在业务处理之前,在...原创 2020-04-21 19:45:13 · 788 阅读 · 0 评论 -
大数据hadoop3.1.3——Hadoop序列化以及案例操作
1、序列化概述2、自定义bean对象实现序列化接口(Writable)在企业开发中往往常用的基本序列化类型不能满足所有需求,比如在Hadoop框架内部传递一个bean对象,那么该对象就需要实现序列化接口。具体实现bean对象序列化步骤如下7步。(1)必须实现Writable接口(2)反序列化时,需要反射调用空参构造函数,所以必须有空参构造 public FlowBean() {...原创 2020-04-16 21:01:19 · 339 阅读 · 0 评论 -
大数据hadoop3.1.3——WordCount案例操作--Windows本地提交集群以及打jar包到集群上执行
WordCount案例实操1.需求在给定的文本文件中统计输出每一个单词出现的总次数(1)输入数据到*.txt文件,预计出现次数如下:banzhang 1cls 2hadoop 1jiao 1ss 2xue 12.需求分析按照MapReduce编程规范,分别编写Mapper,Reducer,DriverWordCount需求分析3.环境准备(1)创建ma...原创 2020-04-16 19:41:20 · 1097 阅读 · 0 评论 -
大数据hadoop3.1.3——MapReduce学习(基础概念)
1、MapReduce概述1、MapReduce定义2、MapReduce优缺点1 优点2 缺点3、MapReduce核心思想1)分布式的运算程序往往需要分成至少2个阶段。2)第一个阶段的MapTask并发实例,完全并行运行,互不相干。3)第二个阶段的ReduceTask并发实例互不相干,但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。4)MapRed...原创 2020-04-16 18:58:53 · 761 阅读 · 0 评论 -
大数据hadoop3.1.3——HDFS系统之小文件存档、纠删码操作
1、小文件存档3.案例实操(1)需要启动YARN进程 start-yarn.sh(2)归档文件把/user/caron/input目录里面的所有文件归档成一个叫input.har的归档文件,并把归档后文件存储到/user/caron/output路径下。bin/hadoop archive -archiveName input.har –p /user/caron/input /u...原创 2020-04-15 20:53:24 · 809 阅读 · 0 评论 -
大数据hadoop3.1.3——HDFS系统之DataNode学习(开发)
1 DataNode工作机制1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。2)DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。3)心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,...原创 2020-04-15 20:17:38 · 443 阅读 · 0 评论 -
NameNode和SecondaryNameNode——多目录配置(面试开发重点)
1 NN和2NN工作机制思考:NameNode中的元数据是存储在哪里的?首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新Fs...原创 2020-04-15 15:56:08 · 312 阅读 · 0 评论 -
大数据Hadoop3.1.3——HDFS文件系统的客户端操作(基础)
1、 HDFS客户端环境准备1、将Windows依赖hadoop-3.1.0放到指定位置,设置环境变量2.配置HADOOP_HOME环境变量3. 配置Path环境变量,然后重启电脑原创 2020-04-14 10:17:28 · 1385 阅读 · 0 评论