
大数据
文章平均质量分 77
厉害哥哥吖
呼哧呼哧三碗饭。。。
展开
-
(三十四)大数据实战——scala运行环境安装配置及IDEA开发工具集成
本节内容我们主要介绍一下scala运行环境的安装配置以及在idea开发工具中集成scala插件,便于scala项目的开发。 在开始scala安装配置之前,我们要先安装好jvm运行环境,scala运行于Java虚拟机(JVM)上,并且可以与Java代码进行互操作。Scala是一种强大而灵活的编程语言,适合用于构建各种类型的应用程序,包括Web应用、数据处理、分布式系统等。它具有丰富的特性和生态系统,在大数据领域中也得到了广泛应用,例如Apache Spark就是使用Scala作为其主要编程语言。原创 2023-10-17 11:50:19 · 1025 阅读 · 0 评论 -
(二十一)大数据实战——Flume数据采集之复制和多路复用案例实战
本节内容我们完成Flume数据采集的一个多路复用案例,使用三台服务器,一台服务器负责采集本地日志数据,通过使用Replicating ChannelSelector选择器,将采集到的数据分发到另外俩台服务器,一台服务器将数据存储到hdfs,另外一台服务器将数据存储在本机,使用Avro的方式完成flume之间采集数据的传输。原创 2023-09-05 07:46:34 · 1813 阅读 · 0 评论 -
(二十)大数据实战——Flume数据采集的基本案例实战
本节内容我们主要介绍几个Flume数据采集的基本案例,包括监控端口数据、实时监控单个追加文件、实时监控目录下多个新文件、实时监控目录下的多个追加文件等案例。完成flume数据监控的基本使用。原创 2023-08-30 23:35:16 · 2554 阅读 · 0 评论 -
(四十一)大数据实战——spark的yarn模式生产环境部署
Spark 是一个开源的分布式计算系统。它提供了高效的数据处理能力,支持复杂的数据分析和处理任务,是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。Spark Core:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet,简称RDD)的API定义。Spark SQL:是Spark用来操作结构化数据的程序包。原创 2024-08-01 19:34:14 · 1159 阅读 · 0 评论 -
(四十)大数据实战——Zabbix监控平台的部署搭建
Zabbix是一款能够监控各种网络参数以及服务器健康性和完整性的软件。Zabbix使用灵活的通知机制,允许用户为几乎任何事件配置基于邮件的告警,这样可以快速反馈服务器的问题。基于已存储的数据,Zabbix提供了出色的报告和数据可视化功能。Zabbix 支持轮询和被动捕获。基于Web的前端页面确保您的网络状态和服务器健康状况可以从任何地方进行评估。在经过适当的配置后,Zabbix可以在监控IT基础设施方面发挥重要作用。原创 2024-02-15 17:49:25 · 1856 阅读 · 0 评论 -
(三十九)大数据实战——Prometheus监控平台的部署搭建
Prometheus监控(Prometheus Monitoring)是一种开源的系统监控和警报工具。它最初由SoundCloud开发并于2012年发布,并在2016年加入了云原生计算基金会(CNCF)。Prometheus监控旨在收集、存储和查询各种指标数据,以帮助用户监视其应用程序和系统的性能和运行状态。原创 2024-02-15 15:44:06 · 5535 阅读 · 0 评论 -
(三十八)大数据实战——Atlas元数据管理平台的部署安装
Apache Atlas 是一个开源的数据治理和元数据管理平台,旨在帮助组织有效管理和利用其数据资产。为组织提供开放式元数据管理和治理功能 ,用以构建其数据资产目录,对这些资产进行分类和管理,形成数据字典 。并为数据分析师和数据治理团队提供围绕这些数据资产的协作功能。原创 2024-02-14 18:16:26 · 3648 阅读 · 1 评论 -
(三十七)大数据实战——Solr服务的部署安装
Solr是一个基于Apache Lucene的开源搜索平台,它提供了强大的全文搜索、分布式搜索和数据分析功能。Solr 可以用于构建高性能的搜索应用程序,支持从海量数据中快速检索和分析信息。Solr 使用倒排索引和先进的搜索算法,可实现快速而准确的全文搜索。Solr可以在多个服务器上进行水平扩展,实现分布式搜索和负载均衡。Solr支持复杂的过滤、排序和范围查询,使您可以根据各种条件对搜索结果进行精确控制。Solr 提供了强大的聚合和统计功能,用于在搜索结果上执行数据分析和汇总操作。原创 2024-02-14 15:13:33 · 2586 阅读 · 0 评论 -
(三十六)大数据实战——ClickHouse数据库的部署安装实现
ClickHouse是俄罗斯的Yandex于2016年开源的列式存储数据库 DBMS ),使用C语言编写,主要用于在线分析处理查询( OLAP ),能够使用SQL查询实时生成分析数据报告。列式存储:数据按列进行存储,这使得 ClickHouse 能够高效地处理聚合查询和分析操作;高性能:ClickHouse 被设计用于快速查询和分析大规模数据,因此具有出色的性能。分布式架构:支持分布式部署,可以轻松地扩展到多个节点,以处理大量数据和并行查询。原创 2024-02-13 18:21:02 · 2058 阅读 · 0 评论 -
(三十五)大数据实战——Superset可视化平台搭建
本节内容是关于Apache Superset可视化平台的搭建,Apache Superset是一个现代的数据探索和可视化平台 。它功能强大且十分易用,可对接各种数据源,包括很多现代的大数据分析引擎,拥有丰富的图表展示形式,并且支持自定义仪表盘。原创 2024-02-12 16:25:09 · 2661 阅读 · 0 评论 -
(三十三)大数据实战——Canal安装部署及其应用案例实战
Canal 是一个开源的MySQL数据库binlog监听和解析框架,用于实时捕获 MySQL数据库的binlog 变更事件,并将其解析成易于消费的数据格式。Canal 可以实时监听 MySQL 数据库的 binlog,并即时捕获数据库的数据变更事件。Canal可以将捕获到的binlog事件解析成易于消费的数据格式,如 SON格式,方便后续处理与消费。Canal 通过增量订阅和解析 binlog 的方式,避免了全量数据的传输和处理,提供了较高的性能和吞吐量。Canal 支持灵活的配置,可以根据需求过滤和选择需原创 2023-09-17 14:04:07 · 908 阅读 · 0 评论 -
(三十二)大数据实战——Maxwell安装部署及其应用案例实战
Maxwell是一个开源的MySQL数据库binlog解析工具,用于将MySQL数据库的binlog转换成易于消费的JSON格式,并通过Kafka、RabbitMQ、Kinesis 等消息队列或直接写入文件等方式将其输出。本节内容主要介绍如何安装部署Maxwell以及如何使用Maxwell完成数据的同步,这里主要以同步数据到kafka服务器为例。关于mysql和kafka的安装,这里不在介绍,请关注作者往期博客内容。原创 2023-09-17 10:29:03 · 1808 阅读 · 0 评论 -
(三十一)大数据实战——一键式DolphinScheduler高可用工作流任务调度系统部署安装
DolphinScheduler(Dolphin Scheduler)是一个分布式、易扩展的开源 DAG(有向无环图)工作流任务调度系统,可用于构建大规模数据处理、数据仓库、ETL 等复杂的数据处理和数据分析场景。DolphinScheduler 支持多种任务类型,包括 Shell、SQL、Spark、Python、Sub-Process、HTTP、Flink 等,同时也支持用户自定义任务类型。本节内容我们完成DolphinScheduler工作流系统的搭建。原创 2023-09-16 19:20:42 · 904 阅读 · 0 评论 -
(三十)大数据实战——HBase集成部署安装Phoenix
Phoenix 是一个开源的分布式关系型数据库查询引擎,它基于 Apache HBase构建。它提供了在 Hadoop 生态系统中使用 SQL查询和事务处理的能力。本节内容我们主要介绍一下Hbase如何集成部署安装Phoenix服务工具,并集成hive框架,能够快速、灵活和可扩展的方式来在Hadoop生态系统中进行 SQL 查询和事务处理。原创 2023-09-16 16:43:51 · 1520 阅读 · 0 评论 -
(二十九)大数据实战——kafka集群节点服役与退役案例实战
本节内容是关于kafka集群节点的服役与退役,从而实现kafka集群的缩容与扩容。在开始本节内容之前,我们要预先安装好kafka集群,并准备一台空余的服务器用来完成我们扩容与缩容的案例。关于kafka集群的安装内容这里不在赘述,相关内容请查看作者往期博客内容。原创 2023-09-14 23:51:07 · 371 阅读 · 0 评论 -
(二十八)大数据实战——Flume数据采集之kafka数据生产与消费集成案例
通过flume监听nc端口的数据,将数据发送到kafka消息的first主题中,然后在通过flume消费kafka中的主题消息,将消费到的消息打印到控制台上。该案例证明了flume1成功采集到了nc监听端口的数据,并将数据发送到了kafka主题first中,flume2成功从kafka主题中消费到了数据并打印到了控制台。- 创建kafka监听的flume任务:job-kafka-flume-console.conf。- 启动job-kafka-flume-console.conf任务。原创 2023-09-14 00:03:56 · 2318 阅读 · 0 评论 -
(二十七)大数据实战——hbase高可用集群安装与部署
本节内容我们主要介绍HBase高可用集群的安装部署。HBase是一个开源的分布式非关系型数据库管理系统(NoSQL),它运行在Apache Hadoop之上。它基于Google的Bigtable论文设计,并且具有高扩展性、高可靠性和高性能的特点。HBase通常用于需要存储和处理大规模结构简单数据的场景,例如日志分析、实时数据处理、用户行为追踪等。它在大数据领域中得到广泛应用,并且与Hadoop生态系统中的其他组件(如HDFS、MapReduce、Hive等)集成紧密。原创 2023-09-13 07:43:28 · 559 阅读 · 0 评论 -
(二十六)大数据实战——kafka集群之Kraft模式安装与部署
本节内容主要介绍kafka3.0版本以后,一种新的kafka集群搭建模式看kraft,在该模式下,kafka高可用不在依赖于zookeeper,用 controller 节点代替 zookeeper,元数据保存在 controller 中,由 controller 直接进 行 Kafka 集群管理。原创 2023-09-10 18:39:07 · 1140 阅读 · 0 评论 -
(二十五)大数据实战——kafka集群及Kafka-Eagle控制台安装与部署
本节内容我们主要介绍一下搭建kafka集群以及kafka集群的一个web客户端组件Kafka-Eagle的部署安装,使用的kafka版本是kafka_2.12-3.0.0。在搭建kafka集群之前,我们要预先搭建好zookeeper集群,这里作者默认zookeeper的集群环境已经搭建完成,可参考作者往期博客内容。新版本的kafka集群分为俩种搭建方式,一种依赖zookeeper,一种使用Kraft模式,本节内容我们主要介绍zookeeper模式的kafka集群搭建部署。原创 2023-09-10 11:03:55 · 2326 阅读 · 0 评论 -
(二十四)大数据实战——Flume数据流监控之Ganglia的安装与部署
本节内容我们主要介绍一下Flume数据流的监控工具Ganglia。Ganglia是一个开源的分布式系统性能监控工具。它被设计用于监视大规模的计算机群集(包括集群、网格和云环境),以便收集和展示系统和应用程序的性能数据。Ganglia 可以轻松地扩展到数千台计算机节点,并支持跨多个数据中心进行分布式监控。Ganglia 使用高效的多播通信协议和紧凑的数据格式,以最小化对网络和系统资源的影响。Ganglia 提供实时监控和报告功能,可以显示关键指标(如 CPU 使用率、内存使用率、网络流量等)的实时数据和历史趋原创 2023-09-07 00:14:59 · 740 阅读 · 0 评论 -
(二十三)大数据实战——Flume数据采集之采集数据聚合案例实战
本节内容我们主要介绍一下Flume数据采集过程中,如何把多个数据采集点的数据聚合到一个地方供分析使用。我们使用hadoop101服务器采集nc数据,hadoop102采集文件数据,将hadoop101和hadoop102服务器采集的数据聚合到hadoop103服务器输出到控制台。原创 2023-09-06 07:26:23 · 2307 阅读 · 0 评论 -
(二十二)大数据实战——Flume数据采集之故障转移案例实战
本节内容我们完成Flume数据采集的故障转移案例,使用三台服务器,一台服务器负责采集nc数据,通过使用failover模式的Sink处理器完成监控数据的故障转移,使用Avro的方式完成flume之间采集数据的传输。原创 2023-09-05 21:18:13 · 1670 阅读 · 0 评论 -
(十九)大数据实战——Flume数据采集框架安装部署
本节内容我们主要介绍一下大数据数据采集框架flume的安装部署,Flume 是一款流行的开源分布式系统,用于高效地采集、汇总和传输大规模数据。它主要用于处理大量产生的日志数据和事件流。Flume 支持从各种数据源(如日志文件、消息队列、数据库等)实时采集数据,并将其传输到目标存储或分析平台。Flume 采用基于拓扑结构的架构,可以通过配置多个组件(称为 Agent 或者节点)来实现数据的流动和处理。Agent 可以按照特定的方式连接,形成流式数据管道。Flume 的设计是基于事件驱动的,它将数据处理视为事件原创 2023-08-30 06:53:02 · 1445 阅读 · 0 评论 -
(十八)大数据实战——Hive的metastore元数据服务安装
Hive的metastore服务作用是为Hive CLI或者Hiveserver2提供元数据访问接口。Hive的metastore 是Hive元数据的存储和管理组件,它负责管理 Hive 表、分区、列等元数据信息。元数据是描述数据的数据,它包含了关于表结构、存储位置、数据类型等信息。本节内容延续上节内容,完成hive的metastore服务的安装部署。原创 2023-08-14 21:08:00 · 641 阅读 · 0 评论 -
(十七)大数据实战——Hive的hiveserver2服务安装部署
HiveServer2 是 Apache Hive 的一个服务器端组件,用于支持客户端与 Hive 进行交互和执行查询。HiveServer2服务的作用是提供jdbc/odbc接口,为用户提供远程访问Hive数据的功能。HiveServer2 允许多个客户端同时连接并与 Hive 交互。这些客户端可以通过 JDBC、ODBC 或 Thrift API 连接到 HiveServer2。HiveServer2 支持并发执行多个查询。它使用一个线程池和查询队列来管理同时执行的查询请求。原创 2023-08-14 07:42:38 · 4005 阅读 · 0 评论 -
(十六)大数据实战——安装使用mysql版的hive服务
hive默认使用的是内嵌据库derby,Derby 是一个嵌入式数据库,可以轻松地以库的形式集成到应用程序中。它不需要独立的服务器进程,所有的数据存储在应用程序所在的文件系统中。为了支持hive服务更方便的使用,我们使用mysql数据库的方式,使得服务部署更加灵活。数据库是分开部署的,使用十分灵活,性能也相对更高。原创 2023-08-09 23:06:06 · 937 阅读 · 0 评论 -
(十五)大数据实战——hive的安装部署
Hive是由Facebook开源,基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本节内容我们主要介绍一下hive的安装与部署的相关内容。原创 2023-08-08 22:07:01 · 647 阅读 · 0 评论 -
(十四)大数据实战——hadoop集群一键式高可用实现自动故障转移与故障初始化恢复
本节内容延续前面几节内容,综合性的实现hadoop集群的高可用以及hadoop集群故障初始化的恢复,通过一个脚本,实现整个集群的高可用启停与状态观测。主要是zookeeper、hdfs、yarn等服务的高可用集群的一键式启停。原创 2023-08-07 20:56:56 · 981 阅读 · 0 评论 -
(十三)大数据实战——hadoop集群之YARN高可用实现自动故障转移
本节内容是关于hadoop集群下yarn服务的高可用搭建,以及其发生故障转移的处理,同样需要依赖zookeeper集群的实现,实现该集群搭建时,我们要预先保证zookeeper集群是启动状态。yarn的高可用同样依赖zookeeper的临时节点及监控,实现服务的故障转移。其ResourceManager的节点任务同样存储于zookeeper集群中,实现数据的共享。原创 2023-08-05 22:24:39 · 552 阅读 · 0 评论 -
(十二)大数据实战——hadoop集群之HDFS高可用自动故障转移
本节内容主要介绍一下hadoop集群下实现HDFS高可用的自动故障转移,HDFS高可用的自动故障转移主要通过zookeeper实现故障的监控和主节点的切换。自动故障转移为 HDFS 部署增加了两个新组件:ZooKeeper 和 ZKFailoverController (ZKFC)进程。ZooKeeper 是维护少量协调数据,通知客户端这些数据的改变和监视客户端故障的高可用服务。原创 2023-08-05 21:31:38 · 1261 阅读 · 0 评论 -
(十一)大数据实战——hadoop高可用之HDFS手动模式高可用
本节内容我们介绍一下hadoop在手动模式下如何实现HDFS的高可用,HDFS的高可用功能是通过配置多个 NameNodes(Active/Standby)实现在集群中对 NameNode 的热备来解决上述问题。如果出现故障,如机器崩溃或机器需要升级维护,这时可通过此种方式将 NameNode很快的切换到另外一台机器,并通过JournalNode实现主备节点的数据同步。原创 2023-08-02 22:14:35 · 1284 阅读 · 1 评论 -
(二)zookeeper实战——zookeeper集群搭建
本节内容我们主要介绍一下如何在centos系统下搭建一套高可用的zookeeper集群,zookeeper是我们常用的中间键之一,例如使用zookeeper实现分布式锁、Hadoop集群高可用、kafka集群高可用等等。我们以以下三台服务器为例:原创 2023-05-12 07:41:46 · 589 阅读 · 0 评论 -
(一)zookeeper实战——初识zookeeper
本节内容是zookeeper的开篇内容,主要介绍一下zookeeper的基本概念、基本特点、数据结构、工作原理等,便于我们对zookeeper有一个初步的了解。原创 2023-05-09 23:29:47 · 1424 阅读 · 0 评论 -
(十一)大数据实战——hadoop集群崩溃与故障的初始化恢复
在hadoop的使用过程中,由于操作不善,导致集群数据丢失、宕机无法重启等等,这个时候我们如何将我们的hadoop集群恢复到初始化状态呢,本节内容就是针对hadoop集群由于误操作,或者数据丢失等等,我们想将错误数据清理,使hadoop集群恢复到初始化状态。以下是具体的操作过程。原创 2023-04-03 22:03:37 · 1371 阅读 · 0 评论 -
(十)大数据实战——hadoop常用命令合集及集群启动关停自定义脚本执行脚本构建
本节内容我们主要是总结一下hadoop集群中常用的一些命令,以及通过自定义脚本,实现hadoop集群的启动、停止、状态查询等,便于hadoop集群的使用。原创 2023-04-02 17:08:03 · 616 阅读 · 0 评论 -
(九)大数据实战——hadoop集群的历史服务器配置与日志聚集
前面的章节我们已经介绍过了关于hadoop集群部署的内容,延续上一节的内容。本节我们主要介绍一下关于hadoop集群历史服务器的配置与启动,方便我们查看hadoop操作过程中的一些任务执行情况。同时我们也配置一下hadoop集群的日志聚集功能,这样便于集中查看hadoop集群的日志。原创 2023-04-02 16:00:27 · 909 阅读 · 0 评论 -
(八)大数据实战——hadoop集群组件启动及服务组件配置修改
本节内容我们主要介绍,如何启动hadoop的组件服务,例如hdfs、yarn等,并通过修改自定义配置文件,修改我们组件的配置。原创 2023-04-01 19:08:31 · 660 阅读 · 1 评论 -
(七)大数据实战——hadoop集群安装搭建
本节内容我们主要来介绍如何搭建hadoop集群,将hadoop的基础环境搭建完成,便于我们使用hadoop集群。在搭建hadoop集群之前,我们需要先安装java环境,并且我们需要规划我们hadoop集群的组件分布,保证hadoop集群服务器能发挥其最大的价值。原创 2023-04-01 15:07:09 · 523 阅读 · 0 评论 -
(六)大数据实战——hadoop集群实现免密登录和文件互传
本节内容我们主要介绍一下hadoop集群服务器之间实现免密登录和文件互传的功能,这样更加方便我们使用hadoop服务器实现服务器之间的相互登录和文件的相互传输。集群之间的访问不在需要授权就可以实现相互访问。原创 2023-04-01 11:03:23 · 1822 阅读 · 2 评论 -
(五)大数据实战——使用模板虚拟机实现hadoop集群虚拟机克隆及网络相关配置
本节内容我们实现虚拟机的克隆,主要根据模板虚拟机克隆三台hadoop虚拟机,用于hadoop集群的搭建,同时根据上一小节的内容,配置hadoop虚拟机的主机名、ip网络等,最终完成hadoop虚拟机的实例化。原创 2023-03-23 07:55:56 · 817 阅读 · 0 评论