自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 Sqoop

一、Sqoop的简介SQL To Hadoop,目的是完成关系型数据库导入导出到Hadoop!Sqoop的原理是将命令翻译为MR执行,MR没有Reduce阶段,只有Map阶段!二、Sqoop的安装1.环境配置可以在/etc/profile中配置,导出为全局变量或者sqoop-env.sh配置HADOOP_HOME,HIVE_HOME,HBASE_HOME,ZOOKEEPER_HOME2.将连接mysql的驱动,拷贝到Sqoop的lib目录3.测试bin/sqoop list-databa

2021-02-07 20:21:41 260 1

原创 linux进程管理

进程的基本介绍:在Linux中,每个执行的程序都称为一个进程。每一个进程都分配一个ID(进程号PID)每一个进程,都i会对应一个父进程(父进程PPID},而这个父进程可以复制多个子进程。每个进程都可能以两种方式存在,前台与后台,所谓前台进程就是用户目前的屏幕上可以进行操作的。后台进程则是实际在操作,但由于屏幕上无法看到的进程,通常使用后台方式执行。一般系统的服务都是以后台进程的方式存在,而且都会常驻在系统中。直到关机才结束。查看进程的命令ps,一般使用的参数是ps -auxps -a :显示

2021-02-05 20:32:30 178

原创 Hbase

一、Hbase的特点1.海量存储:Hbase适合存储PB级别的海量数据,在PB 级别的数据以及采用廉价PC存储的情况下,能在几十到百毫秒内返回数据。2.列式存储:这里的列式存储其实说的是列族存储,Hbase是根据列族来存储数据的,列族下面可以有很多的列,列族在创建表的时候必须指定。3.极易扩展:Hbase的扩展性主要体现在两个方面,一个是基于上层处理能力的扩展,一个是基于存储的扩展(HDFS)通过横向添加RegionServer及其,进行水平扩展,提高Hbase上层处理能力,提升Hbase服务

2021-02-05 20:32:12 548

原创 Phoenix

一、Phoenix的特点1.将sql查询编译为Hbase扫描2.确定扫描的rowkey的最佳开始和结束位置3…扫描并行执行4.将where字句推送到服务器端的过滤器5.通过协处理器进行聚合操作6.完美支持Hbase耳机索引创建7.DML命令以及通过DDL命令创建和操作表和版本化增量更改8.容易集成:如spark,hive,Pig,Flume,MapReduce。二、Phoenix和Hbase的对应关系hbase--------------------Phoenixnamespace--

2021-02-05 20:20:10 203

原创 Flume

一、Flume的核心概念1.Agent:Agent是一个JVM进程,它是以事件的形式将数据从源头送到目的地。Agent主要由三个部分组成,source,channel,sink。2.source:source是负责接收数据到Flume Agent的组件。source组件可以处理各种类型,各种格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。3.sink:sink

2021-01-30 21:16:55 116

原创 Hive

一、Hive的简介1.Hive是一个数据仓库软件hive可以使用SQL来促进对已经存在在分布式设备中的数据进行读,写和管理等操作!Hive在使用时,需要对已经存储的数据进行结构的投影(映射)。Hive提供了一个命令行和JDBC的方式,让用户可以连接到Hive.注意:Hive只能分析结构化数据!hive在Hadoop之上,使用hive的前提是要安装hadoop!2.Hive的特点hive并不是一个关系型数据库是基于OLTP(在线事务管理)设计OLTP:侧重点在数据的分析上,不追求分析的效率!

2020-12-15 16:49:59 316

原创 MapReduce2

一、自定义输入格式1.自定义类,继承FileInputFormat2.提供RecordReader(1)initliaze(InputSplit split, TaskXXXContext context):会在读取切片数据之前提前被框架调用。 InputSplit split:当前读取的切片TaskXXXContext context:当前Job的上下文,可以通过context获取Job的配置对象。(2)boolean nextKeyValue():负责从切片中读取一对key-value,读到

2020-12-04 13:27:57 221

原创 MapReduce1

一、MR的核心编程思想1.概念Job(作业):一个MR程序称为一个JobMRAppMaster(MR任务的主节点):一个Job在运行时,会先启动一个进程,这个进程为MRAppMaster,负责Job中执行状态的监控,容错,和RM申请资源,提交Task等。Task(任务):task是一个进程!负责某项计算!Map(Map阶段):Map是MapReduce程序运行的第一个阶段!Map阶段的目的是将输入的数据,进行切分。将一个大数据切分为若干小部分。切分后,每个部分称为一个切片(split),每片数据

2020-11-26 22:18:32 191

原创 HDFS分布式文件系统

一、HDFS概述1.HDFS不支持对文件的随机写可以追加,但是不能修改原因:文件在HDFS上存储时,以block为基本单位存储!(1)没有提供对文件的在线寻址(打开)功能(2)文件以块形式存储,修改了一个块中的内容,就会影响当前块之后的所有的块,效率低。2.HDFS不适合存储小文件根本原因:HDFS存储了大量的小文件,会降低NN的服务能力!NN负责文件元数据(属性,块的映射)的管理,NN在运行时,必须将当前集群中存储的所有文件的元数据加载到内存中!NN需要大量的内存!举例: 当前运行NN

2020-11-16 21:02:41 456

原创 hadoop完全分布式集群的搭建

完全分布式集群一、准备工作1.规划Hadoop中的进程在多台机器运行!HDFS: 1个nn+N个DN n个2nnYARN: 1个RM+N个NM避免单点故障,NN和RM建议分散到多台机器!注意负载均衡salve01 master slave02DN DN DNNM NM NMNN RM 2NN2.准备集群,安装软件①克隆三台虚拟机a)在每台机器的/etc/hosts中配置集群所有机器的ip和主机名的映射b)提供zkpk用户,配置zkpk

2020-11-09 21:40:53 244

原创 Hadoop的安装和简介和伪分布式

hadoop简介一、hadoop中的组件HDFS(框架):负责大数据的存储YARN(框架): 负责大数据的资源调度MR(编程模型): 使用Hadoop制定的编程要求,编写程序,完成大数据的计算完成大数据的计算步骤:(1)写程序,程序需要复合计算框架的要求java —>main—>运行MapReduce(编程模型)----》Map–Reducer(2) 运行程序,申请计算资源(cpu+内存,磁盘IO,网络IO)java—>JVM—>OS—>申请计算资源Map

2020-11-07 21:17:01 153

原创 Linux实操篇

组管理和权限管理linux每个用户必须属于一个组,不能独立于组外。在 linux 中每个文件有所有者、所在组、其它组的概念。一般为文件的创建者,谁创建了该文件,就自然的成为该文件的所有者。更改用户组和文件主修改文件的所有者chown 用户名 文件名-R:如果是目录 则使其下所有子文件或目录递归生效修改文件所在组chgrp 组名 文件名-R:如果是目录 则使其下所有子文件或目录递归生效修改用户所在组usermod -g 组名 用户名修改用户的附加组usermod -G 附加组名 用户

2020-10-23 19:46:41 221

原创 linux基础

Linux实际操作1.用户管理home/ 用户家目录:目录下有各个用户对应的家目录,用户登录时,会自动进入自己的家目录。说明:Linux 系统是一个多用户多任务的操作系统,任何一个要使用系统资源的用户,都必须首先向系统管理员申请一个账号,然后以这个账号的身份进入系统。Linux 的用户需要至少要属于一个组。添加用户:useradd [选项] 用户名该命令会默认创建一个与用户同名的组在/home/目录下可查看新建用户的家目录也可以通过 useradd -d 指定目录 新的用户名,给新创建

2020-10-20 14:18:47 285

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除