- 博客(37)
- 资源 (1)
- 收藏
- 关注

原创 CDH大数据平台搭建之HADOOP分布式集群搭建
CHD大数据平台搭建之HADOOP安装一、什么是HADOOP?二、如何下载1.官网下载2.网盘下载三、搭建集群1.准备5台虚拟机2.安装JDK3.安装ZOOKEEPER4.集群规划5.安装HADOOP6.修改配置文件1、进入配置文件目录:2、修改env文件3、修改core-site.xml文件4、修改hdfs-site.xml文件5、配置mapred-site.xml文件6、修改yarn-site.xml文件7、修改slaves文件8、分发文件9、配置环境变量四、启动集群1.启动ZOOKEEPER集群2.启
2021-06-09 17:38:08
4613
原创 Flume之基本使用
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。
2023-06-16 14:53:45
556
原创 Flink之容错机制
有状态流应用中的检查点(checkpoint),其实就是所有任务的状态在某个时间点的一个快照(一份拷贝)。简单来讲,就是一次“存盘”,让我们之前处理数据的进度不要丢掉。在一个流应用程序运行时,Flink 会定期保存检查点,在检查点中会记录每个算子的 id 和状态;如果发生故障,Flink 就会用最近一次成功保存的检查点来恢复应用的状态,重新启动处理流程,就如同“读档”一样。
2023-05-28 22:07:04
312
1
原创 Hbase之RM读写
将HBASE_CLASSPATH加入环境变量:export HBASE_CLASSPATH=`$HBASE_HOME/bin/hbase mapredcp`Hbase建表:create “stu”,“info”,“info1”需要准备hadoop、zookeeper以及hbase集群。并将准备的如下数据上传hdfs,数据按照\t拆分。hive-site.xml文件添加如下配置。数据:最前面准备的stu.txt。分析数据并插入结果表。
2023-05-22 22:50:12
447
1
原创 Flink之Watermark
处理时间(Processing Time)处理时间的概念非常简单,就是指执行处理操作的机器的系统时间。事件时间(Event Time)事件时间,是指每个事件在对应的设备上发生的时间,也就是数据生成的时间。
2023-05-16 16:26:55
301
原创 Flink之提交任务
s(–slots): 每个 TaskManager 的 slot 数量,默认一个 slot 一个 core,默认每个。taskmanager 的 slot 的个数为 1,有时可以多一些 taskmanager,做冗余。-nm:yarn 的 appName(现在 yarn 的 ui 上的名字)。进入flink Web页面:http://hostname:8081/-tm:每个 taskmanager 的内存(单位 MB)。由于并行度设置的是2,3台机器只有2台是有数据的,如下图。查看集群上运行的job。
2023-05-14 17:50:29
2037
原创 idea之Maven项目支持scala
2、File => settings => Plugins => 六角配置按钮 => intall from Disk => 选择刚刚下载的scala插件 => 重启。步骤:File => settings => Plugins => marketplace搜索scala安装。
2023-05-13 19:14:41
2222
原创 MR之ReduceJoin
MR之ReduceJoin前言一、实现思路二、具体代码1.OrderBean类2.ReduceJoinMapper类3.ReduceJoinReduce类4.RecudeJoinDriver类前言前一篇文章将了下MapJoin,其实ReduceJoin和MapJoin类似,只不过一个是在Map端匹配,一个是在Reduce端匹配,各有各的优势。一、实现思路和MapJoin类似,也是通过读取二个文件,文件的大小可以很大,通过FileInputFormat读取文件,读取到文件后需要获取文件的名称,通过文
2021-07-14 11:17:30
335
原创 MR之MapJoin
MR之MapJoin前言一、实现思路二、具体代码1.MapJoinOrderBean类2.MapJoinMapper类3.MapJoinReduce类4.MapJoinDriver类三、运行注意点四、个人运行结果总结前言有一个商品文件和一个订单文件,其中订单文件记录了商品文件的编号,而商品文件中有商品的中文名称。需求:需要输出一个订单文件,字段为:商品名称、商品总量、总金额。一、实现思路我们需要读取商品文件形成一个Map集合,再通过订单文件中的商品id,在Map集合中找到商品名称,再实现对应的
2021-07-12 12:00:11
436
原创 MR之自定义分区
MR之自定义分区前言一、如何自定义分区?二、业务需求二、自定义分区1.CusPartition类2.CusParMapper类3.CusParReduce类四、注意点前言对于MR而言,数据输出的时候是HashPartitioner分区器来进行数据的分区输出,对于这类的分区器,在某些业务情况下不满足要求,这个时候就需要自定义分区器来满足需求。一、如何自定义分区?需求自定义分区,则需要定义一个class类,需要继承Partitioner类,重写getPartition放法,再getPartitio
2021-06-28 19:36:20
526
原创 MR之词频统计
MR之词频统计前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言本文将的是大数据入门程序词频统计,简单的代码编程,通俗易懂。一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport
2021-06-21 14:32:18
615
原创 WIN10下安装HADOOP
WIN10下安装HADOOP前言一、软件下载二、安装JDK三、安装hadoop总结前言在window上面安装hadoop,方便本地环境运行Mapreduce程序,方便调试,跟踪运行流程,更好的掌握MR的运行流程。一、软件下载网盘下载 提取码:lqzq二、安装JDK1、下载好软件,选好安装目录,一路下一步即可2、配置好环境变量,如下图3、验证安装win + r 再输入cmd进入window命令行输入java -version 三、安装hadoop1、将网盘下载的hadoop-2
2021-06-16 17:02:25
816
2
原创 CDH大数据平台搭建之HBASE集群搭建
CHD大数据平台搭建之HBASE集群搭建一、集群规划二、下载三、安装及配置四、启动五、jps验证一、集群规划参考CHD大数据平台搭建之集群规划二、下载1.官网下载2.网盘下载 提取码:cdh5网盘是chd配套版本,官网的事apache版本三、安装及配置1、解压tar -zxvf hbase-1.2.0-cdh5.7.6.tar.gz -C /opt/modules/2、新建文件夹mkdir -p /opt/modules/hbase-1.2.0-cdh5.7.6/datas3
2021-06-16 12:29:46
1171
原创 CDH大数据平台搭建之SPARK集群搭建
CHD大数据平台搭建之SPARK集群搭建一、安装规划二、下载1.引入库2.读入数据三、安装及配置总结一、安装规划示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、下载1.引入库2.读入数据三、安装及配置总结提示:这里对文章进行总结:例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。...
2021-06-16 10:15:23
1355
原创 CDH大数据平台搭建之KAFKA集群搭建
CHD大数据平台搭建之KAFKA安装一、安装规划二、下载KAFKA三、安装及配置1、先安装zookeeper2、解压3、新建文件夹4、修改config目录server.properties文件5、配置环境变量6、分发文件四、启动1、启动命令2、验证总结一、安装规划请参考CHD大数据平台搭建之集群规划二、下载KAFKA1.官网下载2.网盘下载 提取码:cdh5注意事项:网盘的是配套的scala和kafka,自行下载注意版本要匹配三、安装及配置1、先安装zookeeper请参考CHD大数据
2021-06-15 14:53:05
1244
1
原创 CDH大数据平台搭建之SCALA安装
CHD大数据平台搭建之SCALA安装一、下载二、安装及配置1.解压2.配置环境变量三、验证一、下载1、官网下载2、网盘下载 提取码:cdh5二、安装及配置1.解压tar -zxvf scala-2.11.8.tgz -C /opt/modules/2.配置环境变量1、编辑配置文件vi /etc/profile2、添加如下内容# SCALA_HOMEexport SCALA_HOME=/opt/modules/scala-2.11.8export PATH=$PATH:$SCA
2021-06-11 16:14:10
331
1
原创 CDH大数据平台搭建之FLUME安装
CHD大数据平台搭建之FLUME安装一、下载二、安装及配置1.解压2.重命名文件夹3.修改配置文件一、下载1、官网下载2、网盘下载 提取码:cdh5备注:官网下载的是apache版本,网盘的是cdh5.7.6的版本二、安装及配置1.解压tar -zxvf flume-ng-1.6.0-cdh5.7.6.tar.gz -C /opt/modules/2.重命名文件夹mv apache-flume-1.6.0-cdh5.7.6-bin flume-1.6.0-cdh5.7.63.修改配
2021-06-11 15:21:29
671
1
原创 CDH大数据平台搭建之HIVE安装
CHD大数据平台搭建之HIVE安装前言一、下载二、安装1.解压2.配置3.启动4.注意前言一、下载1、官网下载2、网盘下载 提取码:cdh5备注:官网下载的是apache版本,网盘的是cdh5.7.6的版本二、安装1.解压tar -zxvf hive-1.1.0-cdh5.7.6.tar.gz -C /opt/modules/2.配置1、进入配置文件夹:cd /opt/modules/hive-1.1.0-cdh5.7.6/conf2、重命名文件mv hive-env.sh.
2021-06-10 16:11:29
1354
原创 CDH大数据平台搭建之MYSQL安装
CHD大数据平台搭建之MYSQL安装一、MYSQL安装1.检查是否安装mysql2.基于yum安装2.基于rpm包安装1、下载rpm包2、安装3.mysql服务命令4.开机自启5.查看初始密码6.登录mysql7.修改密码8.删除其他登录9.授权所有机器登录10.刷新权限一、MYSQL安装1.检查是否安装mysql rpm -qa | grep mysql2.基于yum安装1.检查当前环境是否已安装MySQLrpm -qa | grep mysql2.安装MySQLyum instal
2021-06-10 11:46:14
440
原创 CDH大数据平台搭建之xsync分发脚本
CHD大数据平台搭建之xsync分发脚本前言一、安装rsync二、编写xsync脚本1.新建bin文件夹2.新建xsync文件3.编辑文件4.授权5.使用6.注意前言脚本是出自尚硅谷老师们编写的,在这里分享给大家,有需要的拿去,再次感谢尚硅谷老师们。一、安装rsyncsudo yum install -y rsync二、编写xsync脚本1.新建bin文件夹在用户家目录下新建bin目录:mkdir -p /home/hpsk/bin2.新建xsync文件touch /home/hps
2021-06-08 17:26:51
541
原创 CDH大数据平台搭建之ZOOKEEPER集群搭建
CHD大数据平台搭建之ZOOKEEPER安装前言一、什么是ZOOKEEPER?二、如何下载1.官网下载(已收费)2.网盘下载三.安装Zookeeper1.安装Java2.安装Zookeeper3.添加环境变量4.分发到其他机器5.修改其他机器的myid内容四、启动Zookeeper五、验证启动总结前言本次主要是针对Zookeeper的安装及启动,安装Zookeeper需要先安装Java,需要Javaan安装教程的小伙伴可以参考CHD大数据平台搭建之JDK安装。一、什么是ZOOKEEPER?Zook
2021-06-07 18:30:23
1400
原创 CDH大数据平台搭建之JDK安装
CHD大数据平台搭建之JDK安装一、安装JDK1、下载JDK2、安装JDK3、检查是否安装成功一、安装JDK1、下载JDK1、JDK8官网下载2、提供百度网盘供大家下载,提取码:cdh52、安装JDK1、下载好jdk-8u91-linux-x64.tar.gz包后,上传至服务器上2、安装,安装目录自己定义,比如我的就是:/opt/modulestar -zxvf jdk-8u91-linux-x64.tar.gz -C /opt/modules3、配置环境变量1、执行编辑命令:sudo
2021-06-04 16:25:41
932
原创 CDH大数据平台搭建之集群规划
CHD大数据平台搭建之集群规划前言一、集群规模二、集群规划总结前言话说无规矩不成方圆,搭建CDH大数据平台之前需要的工作很多,首先,你需要计算公司每日的数据量,来确定需要多少服务器,确定好服务器之后,需要规划集群节点的分配。由于是个人搭建,不存在数据量计算,只做集群规划即可。一、集群规模每日数据量的多少,决定了服务器的数量计算规则如下:1、hdfs数据保存3份2、一般文件保存3年3、每台服务器硬盘大小8T,但会留20%左右的空闲空间所需服务器数量 = 公司每日数据量(TB) * 3 * 3
2021-06-04 15:43:46
1848
原创 CDH大数据平台搭建之虚拟环境配置
CHD大数据平台搭建之虚拟环境配置前言一、虚拟机网络配置二、虚拟机主机名配置三、SSH免秘钥登录1.引入库2.读入数据总结前言搭建大数据平台需要配置好虚拟网络环境,其中包括通外网、主机名、ssh面密钥登陆、ntp时间同步等。一、虚拟机网络配置二、虚拟机主机名配置三、SSH免秘钥登录1.引入库代码如下(示例):import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sn
2021-06-03 13:50:56
1778
原创 CDH大数据平台搭建之VMware及虚拟机安装
CHD大数据平台搭建-VMware及虚拟机安装前言一、下载所需框架二、安装(略)三、安装虚拟机1、新建虚拟机(按照操作即可)总结前言搭建大数据平台需要服务器,这里通过VMware +CentOS镜像进行模拟,供新手学习必备。一、下载所需框架VMware 和CentOS可以通过官网下载,这里我提供大家也会提供所需软件,请到百度网盘自行下载,提取码:cdh5二、安装(略)VMware安装就不演示了,简单的windows软件安装,相信大佬都会。三、安装虚拟机1、新建虚拟机(按照操作即可)1、
2021-06-02 15:27:05
1491
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人