
大数据面试知识点
数据孤岛
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
HBase随机读写
HBase随机读写 HDFS不太适合做大量的随机读应用,但HBASE却特别适合随机的读写 个人理解: 1、数据库一般都会有一层缓存,任何对数据的更改实际上是先更改内存中的数据。然后有异步的守护进程负责将脏页按照一定策略刷新到磁盘空间中去。这就可以大大降低软件对于磁盘随机操作的频度。 2、HDFS读取会进行全文件查找耗时相当大,而数据库通常会建索引查找起来就快。 ...原创 2020-11-18 11:46:40 · 715 阅读 · 0 评论 -
Hive——分区的详细图文介绍,绝对看懂!
分区 Hive中没有索引,如果要查询某个数据就需要暴力扫描全表,这样效率极低,所以hive引入分区概念, 把相同条件的数据放在不同的文件夹,查找时通过where语句可以到指定的分区,快速查找到需要的数据,效率也就提高了 创建分区 例子 我创建一个dept_partition分区表,其实就是多了一列 partitioned by (month string),这样把2020-10月产生的数据dept.txt的信息放到这个分区中,以后查找2020-10月的信息就直接来这个分区找,而不需要全表扫描了。 creat原创 2020-10-20 10:33:00 · 1323 阅读 · 0 评论 -
元数据简单介绍
什么是元数据 任何文件系统中的数据分为数据和元数据。 数据是指普通文件中的实际数据, 元数据指用来描述一个文件的特征的系统数据,诸如访问权限、文件拥有者以及文件数据块的分布信息(inode…)等等。在集群文件系统中,分布信息包括文件在磁盘上的位置以及磁盘在集群中的位置。用户需要操作一个文件必须首先得到它的元数据,才能定位到文件的位置并且得到文件的内容或相关属性。 元数据管理方式 元数据管理有两种方式。集中式管理和分布式管理。 集中式管理是指在系统中有一个节点专门司职元数据管理,所有元数据都存储在该节点的存储原创 2020-10-19 09:18:11 · 465 阅读 · 0 评论 -
HBase的MemStore 刷写时机
MemStore 刷写时机: 1、当某个 memstroe 的大小达到了 hbase.hregion.memstore.flush.size(默认值 128M), 其所在 region 的所有 memstore 都会刷写。 当 memstore 的大小达到了 hbase.hregion.memstore.flush.size(默认值 128M)* hbase.hregion.memstore.block.multiplier(默认值 4) 时,会阻止继续往该 memstore 写数据。 2 、当 regi.原创 2020-10-18 22:33:08 · 325 阅读 · 0 评论 -
HBase的合并与切分
StoreFile Compaction(合并) 介绍 由于memstore每次刷写都会生成一个新的HFile,且同一个字段的不同版本(timestamp) 和不同类型(Put/Delete)有可能会分布在不同的 HFile 中,因此查询时需要遍历所有的 HFile。 为了减少 HFile 的个数,以及清理掉过期和删除的数据,会进行 StoreFile Compaction。 Compaction分成两类 Minor Compaction 会将临近的若干个较小的 HFile 合并成一个较大的 HFile原创 2020-10-18 22:11:23 · 446 阅读 · 0 评论 -
HBase读写流程详解
HBase架构图 Region Server Region Server 为 Region 的管理者,其实现类为 HRegionServer,主要作用如下: 对于数据的操作:get, put, delete; 对于 Region 的操作:splitRegion、compactRegion。 Master Master 是所有 Region Server 的管理者,其实现类为 HMaster,主要作用如下: 对于表的操作:create, delete, alter 对于 RegionServer的操作:分原创 2020-10-18 21:53:49 · 253 阅读 · 0 评论 -
Hadoop——Yarn工作机制
(1)作业提交 第1步:Client调用job.waitForCompletion方法,向整个集群提交MapReduce作业。 第2步:Client向RM申请一个作业id。 第3步:RM给Client返回该job资源的提交路径和作业id。 第4步:Client提交jar包、切片信息和配置文件到指定的资源提交路径。 第5步:Client提交完资源后,向RM申请运行MrAppMaster。 (2)作业初始化 第6步:当RM收到Client的请求后,将该job添加到容量调度器中。 第7步:某一个空闲的NM领取到.原创 2020-10-08 18:51:33 · 118 阅读 · 0 评论 -
Hadoop——MapReduce过程详解
1、MapReduce程序读取文件的输入目录上存放的相应文件 2、客户端在submit()方法执行之前获取要处理的数据信息,根据集群中的配置形成一个任务分配规划 3、客户端提交切片信息给Yarn,Yarn中的resourcemanager启动MRAppmaster 4、MRAPPmaster启动后根据本次job的描述信息计算出需要maptask的实例对象。首先,读取数据组件InputFormat(默认TextInputFormat)getSplits方法对输入目录中文件进行逻辑切片规划得到splits,.原创 2020-10-08 18:33:46 · 737 阅读 · 0 评论 -
Hadoop中DataNode的工作机制
一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。 1、DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。 2、心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删除某个数据块。如果超过10分钟30秒没有收到某个DataNode的心跳,则认为该节点不可用。 3、集群运行中可以安全加入和退出一些机器。 .原创 2020-10-04 17:02:13 · 161 阅读 · 0 评论 -
Hadoop中NameNode工作机制
第一阶段:namenode启动 1)第一次启动namenode格式化后,创建fsimage和edits文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。 2)客户端对元数据进行增删改查的请求 3)namenode记录操作日志,更新滚动日志。(先记录操作,真正执行操作在下一步。因为一旦在对数据增删改查时电脑出现断电,后面可以读取记录操作恢复数据) 4)namenode在内存中对数据进行增删改查 第二阶段:Secondary NameNode工作 1)Secondary NameNode询问name.原创 2020-10-04 16:48:07 · 209 阅读 · 0 评论 -
Hadoop中HDFS的读写流程
1、客户端通过DistrubutedFileSystem向NameNode发出上传ss.avi文件的申请 2、NameNode检查HDFS是否存在ss.avi如果没有就同意请求 3、客户端会问NameNode有哪些DataNode可以上传我的第一个block块呢 4、NameNode告诉客户端能上传到哪些DataNode 5、客户端这时通过FSDataOutputStream向DataNode1申请传输通道,DataNode1继续把申请传给DataNode2,DataNode2又把申请传到DataNode.原创 2020-10-04 10:25:34 · 248 阅读 · 1 评论