
大数据
文章平均质量分 89
准将
这个作者很懒,什么都没留下…
展开
-
elk分布式日志管理系统搭建
elk分布式日志管理系统搭建一般大型系统是一个分布式部署的架构,不同的服务模块部署在不同的服务器上,问题出现时,大部分情况需要根据问题暴露的关键信息,定位到具体的服务器和服务模块,构建一套集中式日志系统,可以提高定位问题的效率。一个完整的集中式日志系统,需要包含以下几个主要特点:收集-能够采集多种来源的日志数据传输-能够稳定的把日志数据传输到中央系统存储-如何存储日志数据分析-可以支持 UI 分析警告-能够提供错误报告,监控机制ELK提供了一整套解决方案,并且都是开源软件,之间互相配合使原创 2021-11-19 11:21:37 · 729 阅读 · 0 评论 -
Flink笔记
Flink 简介和特点简介:Flink 项目的理念是:“Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架”。Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink 被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算。特点:事件驱动型(Event-driven)流与批的世界观分层 api快速上手搭建 maven 工程 FlinkTutorialpom文件添加依赖:<d原创 2021-11-11 17:28:08 · 1703 阅读 · 0 评论 -
Sqoop笔记
Sqoop笔记Sqoop 概述Sqoop 是一款开源的工具,主要用于在 Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres 等)中的数据导进到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导进到关系型数据库中。Sqoop 项目开始于 2009 年,最早是作为 Hadoop 的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sq原创 2021-10-09 15:10:07 · 110 阅读 · 0 评论 -
HBase笔记
HBase 快速入门Apache HBase 是 Hadoop 数据库,一个分布式、可伸缩的大数据存储。HBase是依赖Hadoop的。为什么HBase能存储海量的数据?因为HBase是在HDFS的基础之上构建的,HDFS是分布式文件系统。为什么使用HBase看懂HBase 知乎的一篇文章 讲的很透彻HBase 安装部署前置条件首先保证Zookeeper集群的正常部署,并启动之:[hadoop@hadoop102 module]$ myzk.sh start =============原创 2021-10-09 14:39:08 · 97 阅读 · 0 评论 -
Kafka部署笔记
Kafka笔记kafka基础架构1)Producer :消息生产者,就是向 kafka broker 发消息的客户端;2)Consumer :消息消费者,向 kafka broker 取消息的客户端;3)Consumer Group (CG):消费者组,由多个 consumer 组成。消费者组内每个消费者负责消费不同分区的数据,一个分区只能由一个组内消费者消费;消费者组之间互不影响。所有的消费者都属于某个消费者组,即消费者组是逻辑上的一个订阅者。4)Broker :一台 kafka 服务器就是一原创 2021-09-10 17:51:11 · 142 阅读 · 0 评论 -
ClickHouse部署笔记
ClickHouse 特点**学习地址:**https://clickhouse.tech/docs/zh/ ,以下笔记部分来源官网,部分来源B站视频:https://www.bilibili.com/video/BV1Yh411z7os?p=1ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。OLAP场景的关键特征绝大多数是读请求数据以相当大的批次(> 1000行)更新,而不是单行更新;或者根本没有更新。已添加到数据库的数据不能修改。对于读取,从数据原创 2021-09-10 15:50:18 · 382 阅读 · 0 评论 -
Hive部署
Hive笔记HIve 基本概念Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能Hive 本质:将 HQL 转化成 MapReduce 程序(1)Hive 处理的数据存储在 HDFS(2)Hive 分析数据底层的实现是 MapReduce(3)执行程序运行在 Yarn 上Hive 架构原理1)用户接口:ClientCLI(command-line interface)、JDBC/ODBC(jdbc 访问 hive)、WEBU原创 2021-08-25 14:02:23 · 518 阅读 · 0 评论 -
ZooKeeper集群部署
ZooKeeper集群部署安装rz上传hadoop到hadoop102服务器上[hadoop@hadoop102 software]$ lshadoop-3.1.3.tar.gz jdk-8u212-linux-x64.tar.gz zookeeper-3.4.5-cdh5.12.1.tar.gz[hadoop@hadoop102 software]$ tar -zxvf zookeeper-3.4.5-cdh5.12.1.tar.gz -C /opt/module/配置服务器编号(原创 2021-08-20 17:03:37 · 194 阅读 · 0 评论 -
Hadoop安装和配置集群
Hadoop集群安装前准备安装虚拟机配置网络关闭防火墙systemctl stop firewalldsystemctl disable firewalld.service创建用户[root@hadoop102 hadoop]# useradd hadoop[root@hadoop102 hadoop]# passwd hadoop配置hadoop 用户具有 root 权限,方便后期加 sudo 执行 root 权限的命令[root@hadoop102 hadoop原创 2021-08-20 11:33:28 · 443 阅读 · 0 评论 -
MAC OS 搭建大数据环境(2)——安装JDK,MAVEN配置ssh 免登陆
MAC OS 搭建大数据环境(2)——安装JDK,配置ssh 免登陆,安装hadoop准备机器,创建用户安装JDK安装JDK配置java 环境变量配置SSH 免登陆准备机器,创建用户root 用户登录之后 创建一个新用户useradd hadoop设置密码passwd hadoop授予hadoop 用户root 权限chmod u + w /etc/sudoersvim /etc/sudoers#在root ALL=(ALL) ALL 下添加 hadoop ALL=(ALL) A原创 2021-02-08 12:53:08 · 353 阅读 · 3 评论 -
MAC OS 搭建大数据环境(1)——VirtualBox 安装 centos7,配置静态地址,关闭防火墙
MAC os VirtualBox 安装 centos7资源准备安装配置修改linux 虚拟机配置动态ip (可忽略)配置静态ip(可与宿主机之间进行通信)关闭防火墙资源准备1.使用镜像地址下载Centos7链接安装点“新建”按钮,输入名称centos,VirtualBox会自动加载与之对应的类型与版本,然后点“继续”按钮。分配内存大小,一般你系统内存的1/4 就行现在创建虚拟硬盘,点击创建虚拟硬盘文件类型,点击继续存储在物理硬盘上选择动态分配就好了,点击继续文件位原创 2021-02-03 09:51:43 · 566 阅读 · 1 评论