BigData大数据
文章平均质量分 61
Hadoop、hive、hbase、spark
LALALAND__
bigdata&GIS
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【学习历程】21 HBase表的热点
1.1 什么是热点检索habse的记录首先要通过rowkey来定位数据行。当大量的client访问hbase集群的一个或少数几个节点,造成少数region server的读/写请求过多、负载过大,而其他region server负载却很小,就造成了“热点”现象。1.2 热点的解决方案1.2.1 预分区预分区的目的让表的数据可以均衡的分散在集群中,而不是默认只有一个region分布在集群的一个节点上。1.2.2 加盐这里所说的加盐不是密码学中的加盐,而是在rowkey的前面增加随机数,原创 2021-09-13 11:43:14 · 277 阅读 · 0 评论 -
【学习历程】20 HBase集成Hive
文章目录1.1 HBase与Hive的对比1.1.1 Hive1.1.2 HBase1.1.3 总结:Hive与HBase1.2 整合配置1.2.1 拷贝jar包1.2.2 修改hive的配置文件1.2.3 修改hive-env.sh配置文件 Hive提供了与HBase的集成,使得能够在HBase表上使用hive sql语句进行查询、插入操作以及进行Join和Union等复杂查询,同时也可以将hive表中的数据映射到Hbase中1.1 HBase原创 2021-09-13 11:37:01 · 181 阅读 · 0 评论 -
【学习历程】19 HBase表的预分区
一、前言当一个table刚被创建的时候,Hbase默认的分配一个region给table。也就是说这个时候,所有的读写请求都会访问到同一个regionServer的同一个region中,这个时候就达不到负载均衡的效果了,集群中的其他regionServer就可能会处于比较空闲的状态。解决这个问题可以用pre-splitting,在创建table的时候就配置好,生成多个region。二、为何要预分区?增加数据读写效率负载均衡,防止数据倾斜方便集群容灾调度region优化Map数量三、预原创 2021-09-13 11:05:28 · 391 阅读 · 0 评论 -
【学习历程】18 HBase读写数据流程
一、HBase读数据流程说明:HBase集群,只有一张meta表,此表只有一个region,该region数据保存在一个HRegionServer上1.1 客户端首先与zk进行连接从zk找到meta表的region位置,即meta表的数据存储在某一HRegionServer上客户端与此HRegionServer建立连接,然后读取meta表中的数据;meta表中存储了所有用户表的region信息,我们可以通过scan 'hbase:meta'来查看meta表信息1.2 根据要查询的name原创 2021-09-13 10:51:20 · 430 阅读 · 0 评论 -
【学习历程】17 HBase的数据存储原理
1、 一个HRegionServer会负责管理很多个region2、 一个 region 包含很多个 store一个 列族 就划分成一个 store如果一个表中只有1个列族,那么每一个region中只有一个store如果一个表中有N个列族,那么每一个region中有N个store3、 一个store里面只有一个memstorememstore是一块内存区域,写入的数据会先写入memstore进行缓冲,然后再把数据刷到磁盘4、一个store里面有很多个 StoreFile, 最后数据是.原创 2021-09-13 10:28:55 · 226 阅读 · 0 评论 -
【学习历程】16 Hive的四种表模型
文章目录一、内部表与外部表1.1 内部表与外部表的区别1.2 内部表与外部表的使用时机二、分区表与分桶表2.1 分区表2.2 分桶表一、内部表与外部表1.1 内部表与外部表的区别1、建表语法的区别外部表在创建的时候需要加上external关键字2、删除表之后的区别内部表删除后,表的元数据和真实数据都被删除了外部表删除后,仅仅只是把该表的元数据删除了,真实数据还在,后期还是可以恢复出来1.2 内部表与外部表的使用时机内部表由于删除表的时候会同步删除HDFS的数据文件,所以确定如果一原创 2021-09-06 19:55:53 · 466 阅读 · 0 评论 -
【学习历程】15 Hadoop性能调优
文章目录一、HDFS参数调优hdfs-site.xml二、YARN参数调优yarn-site.xml三、mapreduce的优化方法一、HDFS参数调优hdfs-site.xml1、调整namenode处理客户端的线程数dfs.namenode.handler.count=20 * log2(Cluster Size)2、编辑日志存储路径dfs.namenode.edits.dir设置与镜像文件存储路径dfs.namenode.name.dir尽量分开,达到最低写入延迟3、元数据信息fsimag原创 2021-08-29 22:43:08 · 420 阅读 · 0 评论 -
【学习历程】14 Yarn之yarn的工作机制
一、yarn的架构 类似HDFS,Yarn也是经典的主从(master/slave)架构,Yarn服务由一个ResourceManager(RM)和多个NodeManager(NM)构成,ResourceManager为主节点(master),NodeManager为从节点(slave)。二、yarn的工作机制MR程序提交到客户端所在的节点YarnRunner向ResourceManager申请一个ApplicationRM将该应用程序的资源路径返原创 2021-08-29 22:11:17 · 235 阅读 · 0 评论 -
【学习历程】13 MapReduce之自定义outputFormat
一、需求 现在有一些订单的评论数据,需要将订单的好评与其他评论(中评、差评)进行区分开来,将最终的数据分开到不同的文件夹下面去,数据内容如下图,其中数据第九个字段表示好评,中评,差评。0:好评,1:中评,2:差评二、分析 关键点是要在一个mapreduce程序中根据数据的不同,输出两类结果到不同目录,这类灵活的输出需求可以通过自定义outputformat来实现原创 2021-08-29 21:37:28 · 242 阅读 · 0 评论 -
【学习历程】12 MapReduce之GroupingComparator分组详解
一、前言 GroupingComparator是mapreduce当中reduce端的一个功能组件,主要的作用是决定哪些数据作为一组,调用一次reduce的逻辑;默认是相同的key,作为同一组,每个组调用一次reduce逻辑;我们可以自定义GroupingComparator实现不同的key作为同一个组,调用一次reduce逻辑。分组排序属于mr中第六步,自定义一个分组类,细节如下:自定义类继承WritableComparato原创 2021-08-29 17:17:16 · 337 阅读 · 0 评论 -
【学习历程】11 MapReduce之InputFormat详解
一、前言 InputFormat是mapreduce当中用于处理数据输入的一个组件,是最顶级的一个抽象父类,主要用于解决各个地方的数据源的数据输入问题。FileInputFormat类是InputFormat的一个子类,如果需要操作hdfs上面的文件,基本上都是通过FileInputFormat类来实现的,我们可以通过FileInputFormat来实现各种格式的文件操作。二、自定义InputFormat &n原创 2021-08-29 16:06:28 · 1022 阅读 · 0 评论 -
【学习历程】10 MapReduce之mapreduce核心思想
一、mapreduce核心思想 MapReduce的思想核心是**“分而治之”**,适用于大量复杂的任务处理场景(大规模数据处理场景)。Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。Reduce负责“合”,即对map阶段的结果进行全局汇总。二、mapReduce编程模型 MapReduce的开发一原创 2021-08-28 23:01:05 · 2189 阅读 · 0 评论 -
【学习历程】09 Hadoop之Java API的使用
前言 分布式集群除了可以利用简单的shell命令进行操作外,还可以使用Java API的方式进行操作,下面是操作流程与代码分享。HDFS的JavaAPI操作首先,创建maven工程,并导入jar包<repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.c原创 2021-08-28 22:37:58 · 276 阅读 · 0 评论 -
【学习历程】08 Hadoop之namenode与secondaryNameNode解析
问题引入: NameNode在集群当中主要负责元数据信息的管理,由于元数据信息需要经常随机访问,因此元数据信息必须可以高效的检索,那么如何保证namenode快速检索呢?元数据信息保存在哪里能够快速检索呢?如何保证元数据的持久安全呢? 解决方案: 为了保证元数据信息的快速检索,那么我们就必须将元数据存放在内存 当中,因为在内存当中元数据信息能够最快速的检索。 但是原创 2021-08-27 22:56:53 · 253 阅读 · 0 评论 -
【学习历程】07 Hadoop之HDFS读写流程
一、hdfs的写入流程文件上传流程如下:创建文件:HDFS client向HDFS写入数据,先调用DistributedFileSystem. create()RPC调用namenode的create(),会在HDFS目录树中指定的路径,添加新文件,并将操作记录在edits.log中。namenode.create()方法执行完后,返回一-个FSDataOutputStream,它是DFSOutputStream的包装类。建立数据流管道pipeline:client调用DFSOutput原创 2021-08-27 21:26:03 · 301 阅读 · 0 评论 -
【常见问题】03 开虚拟机导致电脑蓝屏
解决办法1、控制面板—程序—程序与功能—启用或关闭windows功能首先,检查Hyper-v是否关闭,如下图即可然后,启用Windows虚拟机监控平台与虚拟机平台,我第一次没有启用虚拟机平台,导致总是失败。如下图2、此电脑—右键—管理—服务与应用程序—服务,禁用下列服务,如图3、win+R,输入gpedit.msc计算机配置—管理模板—系统—Device Guard–打开基于虚拟化的安全—禁用4、打开win+X(Windows PowerShell选择管理员)输入 bcdedit /原创 2021-08-23 20:36:03 · 10993 阅读 · 2 评论 -
【学习历程】06 Hadoop集群的安装
文章目录1、上传压缩包并解压2、查看hadoop支持的压缩方式以及本地库3、修改配置文件4、创建文件存放目录5、安装包的分发scp6、配置hadoop的环境变量7、集群启动8、浏览器查看启动页面1、上传压缩包并解压将hadoop包上传到第一台服务器并解压;第一台机器执行以下命令cd /zzz/soft/tar -xzvf hadoop-2.6.0-cdh5.14.2_after_compile.tar.gz -C /zzz/install/2、查看hadoop支持的压缩方式以及本地库第一台机原创 2021-08-23 17:46:06 · 254 阅读 · 1 评论 -
【学习历程】05 安装大数据集群前的环境准备
1、三台虚拟机关闭防火墙三台机器执行以下命令(root用户来执行):systemctl stop firewalldsystemctl disable firewalld2、三台机器关闭selinux三台机器执行以下命令关闭selinux:vi /etc/selinux/configSELINUX=disabled3、三台机器更改主机名三台机器执行以下命令更改主机名:vi /etc/hostname第一台机器更改内容:node01.zzz.com第二台机器更改内容:n原创 2021-08-23 17:18:03 · 199 阅读 · 0 评论 -
【学习历程】04 win10下IDEA连接Linux上的Hadoop集群
如果要在windows下连接虚拟机上的Hadoop集群,就必须要保证windows下有java环境和hadoop环境。一、环境准备1、jdk1.82、idea20193、Linux上hadoop集群,版本为hadoop2.6.0-cdh5.14.2二、win10上安装hadoop环境1、下载hadoop包网站链接:https://archive.apache.org/dist/hadoop/common/本文下载版本为:hado原创 2021-08-16 22:49:42 · 2432 阅读 · 0 评论 -
【学习历程】03 在IDEA中安装配置maven
1、下载Maven :apache-maven-3.6.1-bin.zip下载地址:http://maven.apache.org/download.cgi2、安装Maven并配置本地仓库(1)解压maven路径为:D:\soft\maven 本地仓库路径为:D:\soft\maven\repository(2)配置本地仓库路径 : 打开D:\soft\mave原创 2021-08-16 21:51:22 · 145 阅读 · 0 评论 -
【学习历程】02Linux在win10本地域名解析配置
在使用Hadoop集群时,经常使用网页查看启动页面。但每次敲IP地址比较麻烦,因此可以在win本地Hosts 文件中配置域名和 IP 的映射关系,这样当我们输入域名计算机就能很快解析出 IP ,而不用请求网络上的 DNS 服务器。hosts文件所在位置C:\Windows\System32\drivers\etc 根据Windows系统原创 2021-08-16 11:22:24 · 270 阅读 · 0 评论 -
【常见问题】02在Hadoop 计算过程中出现 name node is in safe mode 问题
1、问题描述在/试运行Hadoop例子时,出现安全模式问题org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.SafeModeException): Cannot delete /tmp/hadoop-yarn/staging/hadoop/.staging/job_1490689337938_0001. Name node is in safe mode.2、解决方法使用下面命令,退出安全模式h原创 2021-08-16 11:10:57 · 285 阅读 · 0 评论 -
【学习历程】01三台linux服务器的安装
linux服务器的安装 大数据的软件一般都是运行在linux服务器上面的,所以需要通过几台linux服务器来安装大数据集群,如果需要几台linux的话,我们可以通过虚拟机来实现好多台linux的安装,通过虚拟机来安装三台linux的服务器出来,然后再在虚拟机里面来搭建大数据集群。1、安装VmWare 略2、通过Vmware安装第一台lin原创 2021-08-15 20:16:31 · 820 阅读 · 0 评论 -
【常见问题】01虚拟机启动时显示“Intel VT-x处于禁用状态”怎么解决?
“Intel VT-x处于禁用状态”的问题解决1、问题描述 第一次安装虚拟机时,经常会遇见“Intel VT-x处于禁用状态”的问题,截图如下。这是因为电脑的虚拟化没有开启,只有正确开启电脑的虚拟化,才能正常使用虚拟机。2、解决办法 此问题可以通过进入电脑BIOS进行设置,网上好多进入BIOS的设置,但是并不方便。本文介绍一种简单的方法原创 2021-08-15 19:44:40 · 10089 阅读 · 3 评论
分享