自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 大数据框架总结

大数据框架总结zookeeperhadoophiveflumesqoopazkabanoozieimpalahueredishbase nosql数据库ELKkafka软件框架之间依赖关系 zookeeper 大数据领域里面一个分布式服务协调框架,主要是帮助其他的框架正常运行 永久节点: 普通永久节点 序列化永久节点 临时节点:客户端一旦断开连接,节点消失 普通临时节点 序列化临时节点 watch机制:类似于监听器 hadoop hdfs 分布式文件存储系统 namenode:主节点 主要用于管理元数据

2021-04-27 22:27:18 499

原创 cdhHadoop完全分布式搭建

cdhHadoop完全分布式搭建介绍Hadoop HA集群的搭建第一步:停止服务第二步:启动所有节点的zookeeper服务第三步:更改配置文件第四步:服务的启动三级目录 介绍 HA模式下,会将FailoverController部署在每个NameNode的节点上,作为一个单独的进程用来监视NN的健康状态。FailoverController主要包括三个组件: HealthMonitor: 监控NameNode是否处于unavailable或unhealthy状态。当前通过RPC调用NN相应的方法完成。 A

2021-04-21 19:23:07 442

原创 HUE的基本使用

HUE的基本使用HUE的介绍Hue的安装hue与其他框架的集成1-hue与hadoop的HDFS以及yarn集成2.配置hue与hive集成3.配置hue与impala的集成4.配置hue与mysql的集成解决hive以及impala执行权限不足的问题 HUE的介绍 HUE=Hadoop User Experience Hue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Pytho

2021-04-20 15:45:30 3318

原创 impala的基本使用

impala的基本使用impala介绍impala的使用impala-shell的外部命令参数语法impala-shell的内部命令行参数语法创建数据库impala的java开发 impala介绍 impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快3到10倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具, impala与hive的关系 impala是基于hive的大数据分析查询引擎,直接使用hive的元数据库m

2021-04-19 19:19:19 2359

原创 大数据生态圈学习--flume与azkaban

大数据生态圈学习--flume与azkaban日志采集框架flume工作流调度器azkaban三级目录 日志采集框架flume 日志采集的框架 flume:flume是cloudera开源提供的一个开源的日志采集功能,可以从各个地方采集我们的数据 可以从socket网络数据包,可以从文件夹下面采集,可以从某一个指定的文件里面采集,还可以从kafka消息队列里面采集 可以将采集来的数据,发送到其他地方,比如日之外文件,hdfs数据存储,kafka消息队列 flume的运行机制及基本架构: flume的核心三组

2021-04-14 12:58:48 319 1

原创 hive的调优

hive调优Fetch抓取(Hive可以避免进行MapReduce)hive表的优化map端的join数据倾斜 Fetch抓取(Hive可以避免进行MapReduce) fetch抓取,能够避免使用mr的,就尽量不要用mr,因为mr太慢了 set hive.fetch.task.conversion=more 表示我们的全局查找,字段查找,limit查找都不走mr 这个属性配置有三个取值 more minimal none 如果配置成none,所有的都要走mr程序 hive的本地模式: set h

2021-04-13 18:38:59 130

原创 hive的安装与基本使用

hive的安装与基本使用数据仓库的基本概念Hive基本概念HIVE的安装部署 数据仓库的基本概念 什么是数据仓库,主要用来干什么 是用来存储东西的 不生产也不消耗,外界放入,主要功能是存储 数据仓库:简称DW data warehouse 目的:构建面向分析的集成化数据环境,主要职责是做分析,对仓库里面的数据来做分析 数据分析可以支持我们做决策 数据分析的特性: 面向主题:数据分析有一定的范围,需要选取一定的主题进行分析 集成性:集成各个其他方面关联的一些数据,比如分析订单购买人的情况,牵连到用户信息 非

2021-04-09 09:41:55 323

原创 Yarn资源调度

Yarn资源调度yarn的介绍yarn集群当中的各个组件的作用yarn当中的调度器yarn常用参数设置 yarn的介绍 yarn是我们hadoop2.x当中引进的一个新的模块,主要用于管理我们集群当中的资源 内存 cpu yarn不光管理硬件资源,还管理运行的一些任务信息等 yarn的调度可以分为两个层级来说 一级管理调度: 管理计算机的资源 运行的job任务的生命周 二级管理调度: 任务的计算模型 多样的化的计算模型 storm spark yarn集群当中的各个组件的作用 resourcemanage

2021-04-08 17:03:48 799

原创 MapReduce运行机制和join算法

MapReduce运行机制和join算法MapTask运行机制详解以及Map任务的并行度ReduceTask 工作机制以及reduceTask的并行度shuffle阶段数据的压缩机制reduce端join算法实现 MapTask运行机制详解以及Map任务的并行度 在mapTask当中,一个文件的切片大小使用默认值是128M,就是跟我们一个block块对应大小一样 MapTask运行的整个过程 1、TextInputFormat读取数据 2、调用map逻辑,默认是一个切片(就是一个block块)对应一个map

2021-04-08 09:12:53 245

原创 大数据生态圈学习--HDFS分布式文件系统

大数据生态圈学习--HDFS分布式文件系统HDFS介绍HDFS的命令行使用hadoop的基准测试 HDFS介绍 HDFS 是 Hadoop Distribute File System 的简称,意为:Hadoop 分布式文件系统。是 Hadoop 核心组件之一,作为最底层的分布式存储服务而存在。 可以存储海量数据。 hdfs的特性: master/slave架构:主从架构 namenode:主节点,主要用于存储元数据,处理用户的请求 datanode:从节点,主要用于存储数据,说白了就是出磁盘的 分块存储:

2021-04-04 21:08:53 526

原创 大数据生态圈学习-Hadoop集群环境搭建

大数据生态圈-Hadoop集群环境搭建hadoop的介绍apache hadoop三种架构环境安装1.StandAlone环境搭建2.伪分布式环境搭建 hadoop的介绍 适合大数据的分布式存储与计算平台 狭义上来说,hadoop就是单独指代hadoop这个软件, 广义上来说,hadoop指代大数据的一个生态圈,包括很多其他的软件 hadoop三大公司发型版本 免费开源版本apache: http://hadoop.apache.org/ 免费开源版本hortonWorks: https://horto

2021-04-03 16:47:22 476

原创 大数据生态圈学习--zookeeper

大数据生态圈学习--zookeeperzookeeper介绍三台机器zookeeper的集群环境搭建zookeeper的shell操作zookeeper的javaAPI网络编程的概念 zookeeper介绍 一个分布式的服务协调框架 主要用于协调辅助其他的框架正常的运行 主要为了解决应用系统一致性问题 zk的本质上是一个分布式小文件存储系统 zk上面的每个文件内容最好不要超过1M 分布式:每台机器看到的数据都是一样 ZK在大数据中的应用(我们为什么要学习ZK): hadoop2.x通过ZK来实现name

2021-04-02 17:05:37 302

原创 大数据集群基础环境搭建

大数据集群基础环境搭建创建3台虚拟机并联网(centos7)环境准备 创建3台虚拟机并联网(centos7) 三台机器规划 IP地址 主机名 第一台机器 192.168.1.100 node01.hadoop.com 第二台机器 192.168.1.110 node02.hadoop.com 第三台机器 192.168.1.120 node03.hadoop.com VmWare当中改名并更改mac地址 第一步-先生成一个MAC地址 第二步-更改ip地址 vim /etc/sysconfig/networ

2021-04-01 23:20:58 358

原创 linux基础--shell编程

linux基础--shell编程shell概述shell 解析器shell脚本shell中的变量运算符条件判断流程控制read读取控制台输入系统函数和自定义函数自定义函数定时备份数据库案例 shell概述 shell是一个命令解释器,接收应用程序和用户命令,调用操作系统内核, 还是一个编程语言。 shell 解析器 linux提供的shell解析器: /bin/sh /bin/bash /sbin/nologin /bin/dash /bin/tcsh /bin/csh centos默认的解析器是bash

2021-04-01 10:52:32 200

原创 linux基础--常用命令

linux基础--常用命令文件目录类date 时间日期类文件权限类搜索查找类压缩和解压类crond 系统定时任务 文件目录类 1.pwd显示当前目录绝对路径 pwd (功能描述:显示当前工作目录的绝对路径) 2.ls 列出目录的内容 ls -a 全部的文件,连同隐藏档( 开头为 . 的文件) 一起列出来(常用) ls -l 长数据串列出,包含文件的属性与权限等等数据;(常用) 3.cd切换目录 参数 功能 cd 绝对路径 切换路径 cd 相对路径 切换路径 cd ~或者

2021-03-31 10:59:11 2534 5

原创 linux基础--网络配置与用户命令

linux基础--网络配置与用户命令如何快速配置好一台可用centos7用户管理-用户与组的命令 如何快速配置好一台可用centos7 使用的是VM12+centos7 1.在VM12中查看虚拟网络编辑器 2.修改ip地址 3.查看网关 4.修改widons环境VM8的网络配置 5.配置liunx端网络 5.1测试主机连通性 ping www.baidu.com 测试一下是否可以链接百度 5.2 修改IP地址 vi /etc/sysconfig/network-scripts/ifcfg-en

2021-03-30 15:25:46 375 1

原创 Java基础--集合

Java基础--集合集合的概述和Collection集合List集合迭代器、for循环,增强for循环遍历集合 集合的概述和Collection集合 集合的概述:集合是一个容器,是用来存储和获取数据的. Collection: 是单列集合的顶层接口。 Collection 表示一组对象,这些对象也称为 collection 的元素。 一些 collection 允许有重复的元素,而另一些则不允许。 一些 collection 是有序的,而另一些则是无序的。 JDK 不提供此接口的任何直接 实现:它提供更具体

2021-03-26 20:03:18 216

原创 Java基础--常用API 02

Java基础--常用API 02数组排序和Arrays工具类包装类Date类和SimpleDateFormat类 数组排序和Arrays工具类 冒泡排序: 就是相邻的两个元素进行两两比较,把元素值大的元素依次向后排. 规律: 总共需要比较的次数为数组的长度减1次; 每次比较之后就会少一个元素参加比较; 代码实现: public static void main(String[] args) { int [] arr={11,23,13,24,1}; //

2021-03-26 12:29:04 125

原创 Java基础--常用API

Java基础--常用APIAPI概念Scanner类 与 Object类String 类StringBuilder类 API概念 API(Application Programming Interface) : 应用程序编程接口 也称之为 : 帮助文档 快速使用API步骤: A:打开帮助文档 B:点击显示,找到索引,看到输入框 C:你要学习什么内容,你就在框框里面输入什么内容 举例:Random D:看包 java.lang包下的类在使用的时候是不需要导包的 E:看类的描述 Random类是用于生成随机数的

2021-03-25 21:39:11 138

原创 Java基础--面向对象03

Java基础--面向对象03final和static关键字抽象类接口类与类_类与接口_接口与接口的关系抽象类与接口的区别包的概述和权限修饰符 final和static关键字 •final关键字 是最终的意思,可以修饰类,成员变量,成员方法。 –修饰类,类不能被继承 –修饰变量,变量就变成了常量,只能被赋值一次 –修饰方法,方法不能被重写 static关键字 静态的意思。可以用来修饰成员变量和成员方法。 static修饰成员的特点: A:被类的所有对象共享。 其实也是判断一个成员是否应该用static修饰的条

2021-03-25 16:33:47 113

原创 Java基础--面向对象02

Java基础--面向对象02继承super关键字以及继承中的方法重写多态 继承 继承的概述: 多个类中存在相同的属性和行为时,将这些内容抽取到单独一个类中,那么多个类无需在定义这些属性和行为,只要继承那个类即可 单独的这个类称为父类,基类或者叫超类,多个类可以称为子类或者派生类 有了继承以后,我们定义一个类的时候,可以在一个已经存在的类的基础上,还可以定义自己的新成员 通过extends关键字可以实现类与类的继承 格式: public class 子类名 extends 父类名{} 继承的好处与弊端 好处:

2021-03-25 12:36:25 111

原创 Java基础--面向对象01

Java基础--面向对象01面向对象概述类的概述与使用private、this关键字和封装面向对象之构造方法标准的类代码格式 面向对象概述 面向对象思想 •我们完成一个需求的步骤:首先是搞清楚我们要做什么,然后在分析怎么做,最后我们再代码体现。一步一步去实现,而具体的每一步都需要我们去实现和操作。这些步骤相互调用和协作,完成我们的需求。 •在上面的每一个具体步骤中我们都是参与者,并且需要面对具体的每一个步骤和过程,这就是面向过程最直接的体现。 •那么什么是面向过程开发呢? 面向过程开发,其实就是面向着具体的

2021-03-24 22:58:14 98

原创 Java基础--方法

Java基础--方法方法的概述和定义格式方法案例之水仙花方法的重载方法参数类型 方法的概述和定义格式 概述: 简单来说就是完成特定功能的代码块,为了解决代码重复编写的问题,可以将代码提取出来放在一个{}中,并为这段代码起个名字。 在很多语言里面都有函数的定义 , 函数在Java中被称为方法。 格式: 修饰符 返回值类型 方法名(参数类型 参数名1,参数类型 参数名2…) { 函数体; return 返回值; } 修饰符: public static 返回值类型: 用于限定返回值的数据类型 方法名 : 一个

2021-03-24 18:01:11 104

原创 Java基础--数组

Java基础--数组数组的介绍及动态初始化数组内存结构及静态初始化数组经典案例-不死神兔 数组的介绍及动态初始化 数组概念: 数组是存储同一种数据类型多个元素的容器。 数组既可以存储基本数据类型,也可以存储引用数据类型。 数组的定义格式: 格式1:数据类型[] 数组名; 格式2:数据类型 数组名[]; 动态初始化: 初始化时只指定数组长度,由系统为数组分配初始值。 格式:数据类型[] 数组名 = new 数据类型[数组长度]; 数组长度其实就是数组中元素的个数。 举例: int [] arr = new i

2021-03-24 16:06:55 109

原创 Java基础--循环语句与Random随机数

Java基础--循环语句与Random随机数循环结构循环嵌套-经典案例九九乘法表控制循环语句Random随机数的使用方法 循环结构 for循环语句格式: for(初始化语句;判断条件语句;控制条件语句) { 循环体语句; } 执行流程: while循环语句格式: 基本格式 while(判断条件语句) { 循环体语句; } 扩展格式 初始化语句; while(判断条件语句) { 循环体语句; 控制条件语句; } 执行流程 dowhile循环语句格式: 基本格式 do { 循环体语句; }while((判断

2021-03-24 11:32:03 396

原创 java基础学习--运算符与选择语句

java基础学习--运算符与选择语句1.运算符的概念2.键盘录入数据3.选择流程控制语句 1.运算符的概念 常用的运算符: 算术运算符 赋值运算符 关系运算符 逻辑运算符 A:什么是运算符 就是对常量和变量进行操作的符号。 B:算数运算符有哪些 * +,-,*,/,%,++,-- /和%的区别 /:获取两个数据相

2021-03-23 22:48:00 167

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除