
大数据
文章平均质量分 56
票7毒9守3验11
这个作者很懒,什么都没留下…
展开
-
master数据导入练习-flume-kafka
数据 数据 1)任务概要 2)数据导入数据库命令【查看数据文件 README 得知】 3)补充:将数据库表格转到本地语句(.csv格式) 1、使用sqoop导入数据到hdfs(.csv格式) 2、flume导入文件至kafka agent文件格式(范例) 1).创建agent文件(我是使用的nodeone) departments.conf、dept_emp.conf、dept_manager.conf、employees.conf、salaries.conf、titles.conf 2)创建topic原创 2021-02-05 09:38:26 · 245 阅读 · 0 评论 -
Spark集群提交方式及zeppelin环境配置
Spark zeppelin环境配置: export JAVA_HOME=/opt/install/jdk export SPARK_HOME=/opt/install/spark export HADOOP_CONF_DIR=/opt/install/hadoop/etc/hodoop zeppelin: val users=spark.read.options(Map(“inferSchema”->“true”,“delimiter”->",",“header”->“true”)).c原创 2021-01-20 18:51:24 · 475 阅读 · 0 评论 -
MapReduce数据倾斜
1.什么是数据倾斜? 简单来说数据倾斜就是数据的key 的分化严重不均,造成一部分数据很多,一部分数据很少的局面。 数据倾斜分为两种: 数据频率倾斜:某一区域的数据量远远大于其他区域。 数据大小倾斜:部分记录的大小远远大于平均值。 2.数据倾斜原因 key分布不均匀 业务数据本身的特性 建表时考虑不周 某些SQL语句本身就有数据倾斜 3.解决办法 方法 1:抽样和范围分区 可以通过对原始数据进行抽样得到的结果集来预设分区边界值。 方法 2:自定义分区partition 基于输出键的背景知识进行自定义分区。例原创 2021-01-01 10:31:17 · 229 阅读 · 0 评论 -
Hadoop高可用集群搭建
一、HDFS-HA集群配置 1.1 配置HDFS-HA集群 1.官方地址:http://hadoop.apache.org/ 2.HDFS高可用集群规划,请先搭建好一个Hadoop完全分布式集群(可以未进行namenode格式化)和ZooKeeper完全分布式环境已经安装完成。 Hadoop102 Hadoop103 Hadoop104 NameNode NameNode ResourceManager ResourceManager ZKFC ZKFC DataNode DataNode Data原创 2020-12-28 11:34:48 · 195 阅读 · 0 评论 -
Phoenix安装及与HBase的集成
一、Phoenix安装 1.1 前置环境 首先保证Zookeeper、Hadoop集群的正常部署,并启动。 1.2 Phoenix安装部署 使用的版本为phoenix-4.14.0-cdh5.14.2。下载地址http://archive.cloudera.com/cdh5/cdh/5/ 1.解压Phoenix到指定目录: [root@hadoop101 software]$ tar -zxf apache-phoenix-4.14.0-cdh5.14.2-bin.tar.gz -C /opt/instal原创 2020-12-24 14:44:56 · 395 阅读 · 0 评论 -
hdfs高可用前期准备工作
前期准备工作 把之前Hadoop的文件 也就是原来的配置信息给删掉 cd /var rm -rf cdh 1.缺一个自动切换的组件。 yum install -y psmisc 另一种解决方案(没试过) 2.规划 nodeone nodetwo nodethree nodefour NN 1 1 ZK 1 1 1 DN 1 1 1 JN 1 1 1 ZXFC 1 1 3.配置信息 修改core-site.xml信息 保留日志存储其他删掉 cd /opt/install/hadoop/etc/hadoop原创 2020-12-23 10:02:58 · 105 阅读 · 0 评论 -
怎么使hadoop集群更容易重置
使hadoop集群更容易重置: 1.数据, NN DN SNN /var/cdh/ 2.日志。 $HADOOP_HOME/logs 修改yarn的配置: yarn-site.xml yarn.nodemanager.aux-services mapreduce_shuffle yarn.resourcemanager.hostname nodetwo mapred-site.xml mapreduce.framework.name yarn 修改: hadoop-env.sh 增加 HA.原创 2020-12-23 09:26:44 · 265 阅读 · 1 评论 -
ZooKeeper分布式环境搭建
1.1 分布式安装部署 0.前置条件 jdk已经安装完成。 三台机器防火墙已经关闭。 1.集群规划 在hadoop102、hadoop103和hadoop104三个节点上部署Zookeeper。 2.解压安装 (1)上传ZooKeeper安装包到hadoop102主机/opt/software目录下。这里还是使用CDH版本,具体包为zookeeper-3.4.5-cdh5.14.2.tar.gz。 (2)解压zookeeper安装包到/opt/install/目录下 [hadoop@hadoop102 so原创 2020-12-23 09:23:23 · 285 阅读 · 0 评论