大数据技术学习
文章平均质量分 91
以实践操作为基础,从0开始,搭建大数据平台的各个组件及操作
@北惜
永远相信美好的事情即将发生。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Flink基础实操-计算单词出现次数
Flink基础实操-计算单词出现次数原创 2023-09-04 17:33:18 · 4278 阅读 · 0 评论 -
大数据组件-Flink环境搭建
Flink(Apache Flink)是一个开源的流处理和批处理框架,它具有高性能、低延迟、容错性和灵活性的特点。Flink拥有强大而灵活的数据处理能力,用户可以根据自己的需求选择合适的组件和API来构建复杂的数据处理流程和批处理任务。Flink Core: Flink核心组件提供了任务调度、作业管理、资源管理、容错机制和数据传输等基础功能。它负责将用户提交的作业进行解析、分配任务并对其进行执行。原创 2023-09-04 17:14:17 · 1137 阅读 · 0 评论 -
大数据组件-Flume集群环境的启动与验证
本次用到的环境有:Oracle Linux 7.4,三台虚拟机,分别为master,slave1,slave2Hadoop2.7.4集群环境Flume1.6.0。原创 2023-09-02 18:21:03 · 5677 阅读 · 3 评论 -
大数据组件-Flume集群环境搭建
Flume是一个分布式、可靠和高可用性的数据采集工具,用于将大量数据从各种源采集到Hadoop生态系统中进行处理。在大型互联网企业的数据处理任务中,Flume被广泛应用。Flume集群环境介绍:Agent:Flume的基本组成单元是Agent,用于在不同的节点之间传输数据。Agent可以是单节点或分布式部署。Source:Source是Flume数据采集的起点,用于从数据源(如日志文件、网络流、消息队列等)中获取数据并将其发送到Channel中。原创 2023-09-01 18:18:43 · 1877 阅读 · 0 评论 -
Sqoop实操案例-互联网招聘数据迁移
Sqoop实操案例-互联网招聘数据迁移原创 2023-09-01 17:49:58 · 1274 阅读 · 2 评论 -
大数据组件Sqoop-安装与验证
Sqoop是一个用于在Apache Hadoop和关系型数据库(如MySQL、Oracle等)之间进行数据传输的工具。它提供了简单易用的命令行界面,可以将结构化数据从关系型数据库导入到Hadoop中的分布式文件系统(如HDFS),或者将数据从Hadoop导出到关系型数据库。原创 2023-09-01 17:27:01 · 1785 阅读 · 0 评论 -
Hive-启动与操作(2)
上一篇文章写到了Hive的安装与配置,这篇文章接着上篇文章延伸Hive的启动与操作,如果Hive没有安装成功的小伙伴们可以参考我上一篇文章:Hive-安装与配置本次用到的环境有:1)Oracle Linux 7.42)Hadoop2.7.43)Hive2.1.14)Mysql5.5.575)Java1.8.0_1441.如果Hadoop服务没有启动,需要先启动Hadoop。2.初始化元数据。初始化成功后,会在操作窗口下面看到“schemaTool completed“初始化完成的字样原创 2023-08-30 19:09:05 · 2463 阅读 · 0 评论 -
Hive-安装与配置(1)
Hive在Hadoop生态系统中运行,依赖Hadoop分布式文件系统(HDFS)和YARN资源管理器。元数据存储:Hive使用关系型数据库(如MySQL、Derby等)来存储元数据,包括表的结构、分区信息、数据位置等。Hive服务:Hive提供Hive CLI(命令行界面)和HiveServer2两种服务方式。HiveCLI用于交互式查询和脚本执行,而HiveServer2允许通过JDBC或ODBC连接进行远程查询。原创 2023-08-30 18:51:44 · 1565 阅读 · 1 评论 -
HBase集群环境搭建与测试
HBase集群由多个RegionServer节点和一个或多个HMaster节点组成。HMaster节点负责管理元数据(例如表的位置、分区等),并协调集群中的各个节点。RegionServer节点负责存储和处理数据,并与HMaster节点通信以获取元数据信息。可靠性:HBase采用数据副本和RegionServer读写分离等机制来实现容错和恢复能力,即使部分节点出现故障,集群仍然可用。高性能:HBase通过将表分割成不同的Region来进行水平扩展,可以处理海量数据并具有很高的读写性能。原创 2023-08-28 20:22:53 · 2469 阅读 · 1 评论 -
ZooKeeper集群环境搭建
ZooKeeper集群由多个服务器节点组成,其中包括一个Leader节点和多个Follower节点。Leader节点负责处理所有客户端请求,并将数据同步到Follower节点。当Leader节点出现故障时,Follower节点会通过选举机制选举出新的Leader节点。ZooKeeper集群的主要特点包括:高性能:ZooKeeper采用基于内存的数据结构和高效的通信协议,具有很高的性能和低延迟。可靠性:ZooKeeper通过数据复制和选举机制来实现容错能力,即使部分节点出现故障,集群仍然可用。原创 2023-08-28 19:07:37 · 4575 阅读 · 1 评论 -
Spark on Yarn集群模式搭建及测试
Apache Spark是一个快速的、通用的大数据处理框架,它支持在各种环境中进行分布式数据处理和分析。在Yarn集群模式下搭建Spark环境可以充分利用Hadoop的资源管理和调度能力。本文将介绍如何搭建Spark on Yarn集群模式环境,步骤详细,代码量大,准备发车~原创 2023-08-24 19:17:44 · 3115 阅读 · 8 评论 -
Spark Standalone环境搭建及测试
Apache Spark是目前最流行的大数据处理框架之一,可用于分布式数据处理和分析。在Standalone模式下搭建Spark集群是学习和开发Spark应用程序的良好起点。原创 2023-08-24 18:03:13 · 3156 阅读 · 22 评论 -
Spark Local环境搭建及测试
Spark单机版的搭建,常用于本地开发测试Spark使用Scala语言编写,运行在Java虚拟机(JVM)当中,故在安装前检查下本机的Java虚拟机环境。用命令查询当前Java版本是否为6以上。原创 2023-06-25 16:53:57 · 4727 阅读 · 15 评论 -
Linux系统下配置java环境
【代码】Linux系统下配置java环境。原创 2023-02-19 20:27:21 · 1793 阅读 · 2 评论 -
hadoop伪分布式搭建(超详细)
上一篇文章已经为大家介绍了如何在Linux系统上配置java环境,这为Hadoop的集群搭建提供了基础条件,因为Hadoop是由Java编写的如果还没有在虚拟机配置java系统的小伙伴可以先看一下我的第一篇文章:https://blog.youkuaiyun.com/beixige/article/details/129112527接下来是hadoop伪分布搭建的要准备东西:jdk1.8.0_221hadoop-2.7.7我都打包提供给大家了,下载地址:https://share.weiyun.com/dk7Wg原创 2023-03-05 22:31:59 · 4622 阅读 · 1 评论 -
hadoop完全分布式集群搭建(超详细)-大数据集群搭建
本次搭建完全分布式集群用到的环境有:jdk1.8.0hadoop-2.7.7本次搭建集群所需环境也给大家准备了,下载链接地址:https://share.weiyun.com/dk7WgaVk密码:553ubk本次完全分布式集群搭建需要提前建立好三台虚拟机,我分别把它们的主机名命名为:master,slave1,slave2一.配置免密登陆首先我们要实现三台虚拟机之间相互的ssh免密登陆在master虚拟机上进行操作:1. 创建ssh秘钥,输入如下命令,生成公私密钥,下方三个红框内都按回车键原创 2023-04-01 19:21:26 · 2625 阅读 · 1 评论
分享