
大数据模块
文章平均质量分 75
大数据模块
芝士味的椒盐
华为云云享专家、51CTOtop红人、阿里云社区专家博主、2021年第十届“中国软件杯”大学生软件设计大赛-B3-高并发条件下消息队列的设计与实现国赛二等奖、2021年浙江省职业院校技能大赛高职组“大数据技术与应用”赛项一等奖、2020“智海”人工智能技术服务技能大赛省三等奖、2018全国职业院校技能大赛中职组电子电路装调与应用赛三等奖
展开
-
大数据组件-Hive部署基于MySQL作为元数据存储
Hive(Mysql):准备如下安装包MySQL-client-5.6.24-1.el6.x86_64.rpmmysql-connector-java-5.1.27.tar.gzMySQL-server-5.6.24-1.el6.x86_64.rpm操作步骤:使用rpm指令查询是否安装有mariadb或postfix,有就卸载rpm -qa |grep mariadbrpm -qa |grep postfix#卸载发现的,否则mysql将安装不上sudo rpm -e --原创 2022-02-09 00:13:05 · 1756 阅读 · 0 评论 -
大数据组件-Hive部署基于derby作为元数据存储
搭建hive的环境需要hadoop的dfs和yarn可以正常运行的情况下。准备好apache-hive-1.2.1-bin.tar.gz和mysql-libs.zip两个包hive安装步骤:解压apache-hive-1.2.1-bin.tar.gz 到/usr/local/src下,并且将其重命名为hivetar -zxvf apache-hive-1.2.1-bin.tar.gzmv apache-hive-1.2.1-bin hive复制/hive/conf下的hive-en.原创 2022-02-08 23:52:08 · 1532 阅读 · 0 评论 -
大数据组件-实时大数据处理框架Storm安装部署|优快云创作打卡
1.官网http://storm.apache.org/2.strom的两种形式2.strom的特性3.使用场景4.集群架构各个节点快速失败,无状态。快速失败的意思是,节点挂掉后,马上重启后,就可以正常工作,不需要很长的时间初始化,状态恢复等过程。无状态:节点本身不存储自己的状态信息,将状态信息由第三方存储。、可以实现高可靠性。5.集群架构进程6.组件 Nimbus7.从节点Supervisor8.组件worker9.组件Executor10.组件zookee原创 2022-01-19 16:15:24 · 424 阅读 · 0 评论 -
大数据组件-Hbase学习
概念:HBase是一个基于HDFS口的非关系型面向列的分布式数据库。这是一个NoSQL开源数据库,其中的数据存储在行和列中。单元格是行和列的交集。 每个单元格值都包含一个"版本”属性,该属性仅是唯一标识该 单元格的时间戳。映射中的每个值都是不间断的字节数组特点:海量存储 Hbase适合存储PB级别的海量数据,在PB级别的数据以及采用廉价PC存储的情况下,能在几十到百毫秒内返回数据。这与Hbase的极易扩展性息息相关。正式因为Hbase良好的扩展性,才为海量数据的存储提供了便利 列存储原创 2022-01-15 16:30:37 · 593 阅读 · 0 评论 -
Hive实现离线计算(HQL)
大数据业务分为两大:实时计算,离线计算实时计算:实时对来到的数据进行及时计算离线计算:对堆积已久的数据进行计算(MapReduce(效率低)、Hive)Hive提供了 一种类SQL的操作进行查询统计Hive的底层:是基于MapReduce的引擎,会将查询语句转换为Map阶段和Reduce阶段MR、Hive:离线计算处理模块的技术Hive特点:可扩展性———>Hive自由扩展集群的规模,一般无需重启服务 延展性————>Hive支持用户自定义函数,用户可以根据自己的需原创 2022-01-15 16:20:30 · 2555 阅读 · 1 评论 -
Zookeeper客户端Curator使用
使用的项目构建工具为Maven,使用坐标如下: <dependencies> <dependency> <groupId>org.apache.curator</groupId> <artifactId>curator-recipes</artifactId> <version>2.13.0</version> ..原创 2022-01-15 16:14:33 · 906 阅读 · 0 评论 -
大数据组件-Zookeeper集群部署
准备好zookeeper的zookeeper-3.4.10.tar.gz包 在Zookeeper安装集群之前先安装JDK1.8,在并且保证三台node时可以通过网络通信的 在/usr/local/src/下创建zookeeper的家名为zookeeper,三台服务器均创建 mkdir zookeeper 此时的三台服务器配置如下: 在node1上的/usr/local/src/zookeeper下使用rz指令上传centos并解压,剪切到合适到位置 rz# ..原创 2022-01-15 15:18:51 · 233 阅读 · 0 评论 -
大数据组件-Hadoop全分布式部署
集群规划 检查三台机器之间是否可以ping通这里的三台主机ip分别如下: #hadoop1192.168.123.75#hadoop2 192.168.123.76#hadoop3192.168.123.77 在/etc/sudoers中设置hadoop的权限(三台) root ALL=(ALL) ALLhadoop ALL=(ALL) NOPASSWD:ALL 修改分别修改三台机的network和hostname的..原创 2022-01-14 13:50:54 · 459 阅读 · 0 评论 -
大数据组件-Hbase高可用架构部署
HBase的配置文件修改HBase对应的配置文件。1)hbase-env.sh修改内容:export JAVA_HOME=/opt/module/jdk1.8.0_144export HBASE_MANAGES_ZK=falseJDK1.8需要注释掉已下内容#export HBASE_MASTER_OPTS...#export HBASE_REGIONSERVER_OPTS...2)hbase-site.xml修改内容:<configura...原创 2022-01-14 13:38:53 · 258 阅读 · 0 评论 -
大数据组件-Spark高可用架构部署
解压sudo tar -zxf ~/download/spark-2.0.2-bin-without-hadoop.tgz -C /usr/local/cd /usr/localsudo mv ./spark-2.0.2-bin-without-hadoop/ ./sparksudo chown -R hadoop ./spark配置环境变量在Mster节点主机的终端中执行如下命令:vim ~/.bash_profile在.bash_profile添加如下配置:exp原创 2022-01-14 13:24:55 · 898 阅读 · 0 评论 -
大数据组件-Hadoop伪分布式部署
创建需要的文件夹进入安装包文件夹mkdir /opt/jdkmkdir /opt/hadoop安装jdk解压缩jdk安装包tar -zxvf jdk-8u144-linux-x64.tar.gz移动文件夹jdk1.8.0_144到/opt/java下面,并改名为jdk1.8mv jdk1.8.0_144/ /opt/jdk/jdk1.8配置jdk的环境变量vim /etc/profile在末尾空白行添加如下信息#Java Configexport JAVA_HOM原创 2022-01-14 12:05:01 · 193 阅读 · 0 评论 -
大数据组件-Kafka集群部署
1)解压安装包[hadoop@hadoop102 software]$ tar -zxvf kafka_2.11-0.11.0.0.tgz -C /opt/module/2)修改解压后的文件名称[hadoop@hadoop102 module]$ mv kafka_2.11-0.11.0.0/ kafka3)在/opt/module/kafka目录下创建logs文件夹[hadoop@hadoop102 kafka]$ mkdir logs4)修改配置文件[h...原创 2022-01-10 22:07:41 · 195 阅读 · 0 评论 -
大数据组件-Sqoop部署及测试
前提在hadoop、hive、Zookeeper、hbase搭建好的环境下进行修改配置文件在sqoop根目录下的conf目录中。1) 重命名配置文件$ mv sqoop-env-template.sh sqoop-env.sh2) 修改配置文件sqoop-env.shexport HADOOP_COMMON_HOME=/opt/module/hadoopexport HADOOP_MAPRED_HOME=/opt/module/hadoopexp...原创 2022-01-10 22:04:50 · 887 阅读 · 0 评论 -
大数据组件-Flume集群部署
1**.规划**三台主机的主机名分别为master,slave1,slave2(防火墙已关闭)由slave1和slave2收集日志信息,传给master,再由master上传到hdfs上2**.配置**上传解压在slave1上的usr文件夹下新建个flume文件夹,用作安装路径[hadoop@slave1 usr]# mkdir flume[hadoop@slave1 usr]# lsbin etc flume games hadoop hbase include j原创 2022-01-10 22:03:23 · 2071 阅读 · 2 评论