自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 Apache ZooKeeper 安装及其特性!

1、Zookeeper基本知识1.1、ZooKeeper集群搭建Zookeeper集群搭建指的是ZooKeeper分布式模式安装。通常由2n+1台servers组成。这是因为为了保证Leader选举(基于Paxos算法的实现)能过得到多数的支持,所以ZooKeeper集群的数量一般为奇数。Zookeeper运行需要java环境,所以需要提前安装jdk。对于安装leader+fol...

2019-12-09 22:17:34 323 1

原创 Apache Hue 组件的介绍

1.上传自己准备好的hue包并解压上传:解压:tar -zxvf ./hue-3.9.0-cdh5.14.0.tar.gz -C ../install/联网安装各种必须的依赖包 yum install -y asciidoc cyrus-sasl-devel cyrus-sasl-gssapi cyrus-sasl-plain gcc gcc-...

2019-12-06 19:50:16 486

原创 Apache Sqoop 的安装(详细!!!适合小白)

1.sqoop介绍Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具。来自于Apache软件基金会提供。Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。Hadoop生态系统包括:HDFS、Hive、Hbase等RDBMS体...

2019-11-28 09:29:12 248

原创 Hive的mysql数据库的安装

第一步:查看是否安装有mysql: rpm -qa |grep mysql如果有就启动mysql如果没有就执行下列操作:第一步:在线安装mysql相关的软件包 yum install mysql mysql-server mysql-devel启动mysql: /etc/init.d/mysqld start chkconfig mysqld on第三步:进入my...

2019-11-20 14:42:03 146

原创 reduce端join与map端join算法实现

1、reduce端join算法实现1、需求:订单数据表t_order: id date pid amount 1001 20150710 P0001 2 1002 20150710 ...

2019-11-18 21:33:09 161

原创 shuffle阶段数据的压缩机制

在shuffle阶段,可以看到数据通过大量的拷贝,从map阶段输出的数据,都要通过网络拷贝,发送到reduce阶段,这一过程中,涉及到大量的网络IO,如果数据能够进行压缩,那么数据的发送量就会少得多,那么如何配置hadoop的文件压缩呢,以及hadoop当中的文件压缩支持哪些压缩算法呢??接下来一一细看:MapReduce的执行流程为什么要配置压缩: MapReduce i...

2019-11-18 21:18:58 192

原创 MapReduce 企业级面试题

MapReduce核心思想分而治之,先分后和。将一个大的,复杂的任务或工作,拆分成多个小的任务,并行处理,最终进行合并。MapReduce由map和reduce组成Map:将数据进行拆分Reduce:对数据进行汇总2.偏移量每个字符移动到当前文档的最前面需要移动的字符个数。3.Suffle包含哪些步骤Protition(分区) --> sort(排序) --&g...

2019-11-16 11:37:40 187 1

原创 初识MapReduce

计算框架 是指实现某项任务或某项工作从开始到结束的计算过程或流的结构。MapReduce计算框架并行计算框架一个大的任务分成多个小的任务,将多个小的任务分发到多个节点上,每个节点同事执行计算hadoop为什么比传统数据快??1.分布式存储2.分布式计算3.节点横向扩展4.移动程序到数据端5.多个数...

2019-11-13 09:01:53 125

原创 HDFS特点 缺点 高级命令 安全模式 FsimageEdits介绍(小白必备)

HDFS 特性:1、海量数据存储: HDFS可横向扩展,其存储的文件可以支持PB级别数据。 2、高容错性:节点丢失,系统依然可用,数据保存多个副本,副本丢失后自动恢复。 可构建在廉价(与小型机大型机比)的机器上,实现线性扩展(随着节点数量的增加,集群的存储能力,计算能力随 之增加)。 3、大文件存储:DFS采用数据块的方式存储数据,将一个大文件切分成多个小文件,分布存储。 ...

2019-11-05 14:37:03 250

原创 HDFS文件读写流程

目标:掌握HDFS写入数据的详细过程1.文件写入过程:详细步骤解析:1、client发起文件上传请求,通过RPC与NameNode建立通讯,NameNode检查目标文件是否已存在,父目录是否存在,返回是否可以上传;2、client请求第一个block该传输到哪些DataNode服务器上;3、NameNode根据配置文件中指定的备份数量及机架感知原理进行文件分配,返回可...

2019-11-04 21:11:59 191

原创 HDFS 基本介绍

目标:掌握什么是HDFS,HDFS的使用场景,组成部分。· HDFS 是 Hadoop Distribute File System 的简称,意为:Hadoop 分布式文件系统。是 Hadoop 核心组件之一,作为最底层的分布式存储服务而存在。 分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。分布式文件系统在大数据时代有着广泛的应用前景,它...

2019-11-04 09:04:02 677

原创 大数据为什么这么快??

大数据为什么这么快??1.扩展性传统的是纵向扩展 服务器数量不发生改变,配置越来越高(发生改变)大数据横向扩展 配置不发生改变,服务器数量越来越多(发生改变)2.分布性传统的方式资源(cpu/内存/硬盘)集中大数据方式资源(cpu/内存/硬盘)分布(前提:同等配置的前提下)3.可用性传统数据备份方式单份备份大数据备份方式多分备份(数据复制,默认三个副本)4.模型...

2019-10-31 10:48:09 439 1

原创 Linux基础安装配置

1 挂载新的硬盘1.1 目标虚拟机 增加一块 硬盘1.2 路径第一步: 了解linux系统分区的原理第二步: 查看系统分区情况第三步: 虚拟机 增加 硬盘第四步: 分区第五步: 格式化第六步: 挂载第七步: 设置重启后 挂载不失效1.3 实现第一步: 了解linux系统分区的原理一个硬盘可以分成多个分区用户不能直接操作硬件, 需要 让硬件和系统的目录 建立映射关系(挂载...

2019-10-24 19:54:48 290 2

原创 Linux(JDK安装 tomcat安装)

JDK安装步骤​ 1、上传解压 JDK安装包创建两个文件夹存储传入和解压后的文件​ mkdir -p /export/soft​ mkdir -p /export/install上传文件rz解压文件:tar -zxvf jdk-8u141-linux-x64.tar.gz -C /export/install2、创建java的配置文件​ 在/etc/profile.d目录...

2019-10-21 21:24:42 126 1

原创 Linux 集群(三台)

集群(三台)第一步: 克隆虚拟机第二步: 更改新增系统的mac地址vim /etc/udev/rules.d/70-persistent-net.rules第三步: 更改网卡信息 (setup)vim /etc/sysconfig/network-scripts/ifcfg-eth0第四步: 重启系统生效reboot三台机器 关闭防火墙内网环境 安全性比较高, 防火墙开...

2019-10-21 20:29:24 408

原创 rpm 软件包管理器

rpm 软件包管理器2.1 目标通过 rpm命令 实现对软件 的安装、查询、卸载RPM 是Red-Hat Package Manager(RPM软件包管理器)的缩写虽然 打上了 red-hat 的标记, 但是理念开放, 很多发行版都采用, 已经成为行业标准2.2 路径第一步: rpm包 的 查询命令第二步: rpm包 的 卸载第三步: rpm包 的 安装2.3 实现第一...

2019-10-18 10:12:06 186

原创 Linux 本地资源库的配置

1.备份/etc/yum.repos.d/内的所有文件2.创建备份的文件夹3、在备份的文件夹中拷贝CentOS-Media.repo 文件到/etc/yum.repos.d/4、对CentOS-Media.repo重命名(改成local.repo)5.实现本地资源库的配置[root@node01 yum.repos.d]# vim local.repo改成如下内容:[c6-m...

2019-10-17 21:12:28 422

原创 linux 挂载iso文件

方式1通过vm 虚拟软件“设置”-》cd/dvd-》设置ISO 映像。选中“开机链接”和“已连接”创建一个iso挂载的目录 /mnt/cdromlsblk -fsr0 iso9660 CentOS_6.9_Final执行挂载命令:mount /dev/sr0 /mnt/cdrom[root@node01 mnt]# mount /dev/sr0 /mnt/cdrom/ ​mount:...

2019-10-17 21:04:34 457

原创 Linux (挂载新的硬盘)

1 挂载新的硬盘1.1 目标虚拟机 增加一块 硬盘1.2 路径第一步: 了解linux系统分区的原理第二步: 查看系统分区情况第三步: 虚拟机 增加 硬盘第四步: 分区第五步: 格式化第六步: 挂载第七步: 设置重启后 挂载不失效1.3 实现第一步: 了解linux系统分区的原理一个硬盘可以分成多个分区用户不能直接操作硬件, 需要 让硬件和系统的目录 建立映射关系(挂载...

2019-10-17 09:33:33 250

原创 Linux(管道相关命令 第五天课程)

1.1cutcut 根据条件 从命令结果中 提取 对应内容1.2 实现第一步: 截取出1.txt文件中前2行的第5个字符第二步: 截取出1.txt文件中前2行以”:”进行分割的第1,2段内容1.3 小结通过 cut 动作 目标文件 可以根据条件 提取对应内容2 sort2.2 路径第一步: 对字符串排序第二步: 去重排序第三步: 对数值排序第四步: ...

2019-10-15 20:52:40 403

原创 Linux 解压缩命令与用户权限(大数据小白学习第四天)

解压缩命令清空指定目录内容 cd /export/ && rm ‐rf *创建测试文件 touch 1.txt 2.txt 3.txt创建有内容的测试目录 mkdir ‐p /export/aaa/ touch /export/aaa/4.txt /export/aaa/5.txt查看结果 tree /export实现3.1 第一步: 打包 和 解包3.1.1 打包...

2019-10-14 21:03:45 1136

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除