
Hadoop 系列
time在左在右
裁诗为骨记昔年,我本云端一散仙。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hdfs面试篇01
体系结构(★★)hdfs的优点与缺点HDFS 具有以下优点:(1) 高容错性数据自动保存多个副本。它通过增加副本的形式,提高容错性。某一个副本丢失以后,它可以自动恢复,这是由 HDFS 内部机制实现的,我们不必关心。(2) 适合批处理它是通过移动计算而不是移动数据。它会把数据位置暴露给计算框架。(3) 适合大数据处理数据规模:能够处理数据规模达到 GB、TB、甚至PB级别...原创 2019-04-26 09:36:56 · 271 阅读 · 0 评论 -
HDFS面试篇2
hdfs读写过程(一)写数据流程1).客户端发出请求 hdfs dfs -put /etc/profile /qf/data2).namenode查看维护的目录结构,检查/qf/data是否存在,如不存在直接报错”no such file or directory“,如存在返回给客户端同意上传文件请求,将操作写入日志文件3).客户端请求上传第一个块,询问namenode块的存储位置4)...原创 2019-04-26 09:49:36 · 514 阅读 · 0 评论 -
Hadoop中job.setNumReduceTasks(0)方法
job.setNumReduceTasks(0)唯一影响的是map结果的输出方式 当job.setNumReduceTasks(0)时,即没有reduce阶段,此时唯一影响的就是map结果的输出方式如果有reduce阶段,map的结果被flush到硬盘,作为reduce的输入;reduce的结果将被OutputFormat的RecordWriter写到指定的地方(setOutputPath...原创 2019-04-24 14:16:21 · 1358 阅读 · 0 评论 -
javaAPI 操作Hbase基础篇
实体类 (使用了lombok框架)lombok框架(插件)该框架会根据注解,生成对应的getter/setter访问器,以及构造方法注解名 作用------------------------------------------------------------@Data ...原创 2019-05-08 21:00:16 · 377 阅读 · 0 评论 -
HBase持续学习
1.HBase 介绍特点:①是Hadoop生态中的数据库。②分布式的、可伸缩的、列式存储的内存数据库。③HBase中的表可以达到数十亿行,数百万列。(戏称为:高表)④HBase基于内存来进行CRUD操作的,速度块、效率高。⑤HBase内存中的数据最终是落地在HDFS之上的。⑥HBase表中的列没有类型的,都是字节数组。(没有RDBMS中的:varchar, int,date…)…...原创 2019-05-08 21:20:44 · 257 阅读 · 0 评论 -
hive json字符串处理问题 (转载)
我们都知道,Hive 内部提供了大量的内置函数用于处理各种类型的需求,参见官方文档:Hive Operators and User-Defined Functions (UDFs)。我们从这些内置的 UDF 可以看到两个用于解析 Json 的函数:get_json_object 和 json_tuple。用过这两个函数的同学肯定知道,其职能解析最普通的 Json 字符串,如下:hive (def...原创 2019-06-19 10:45:59 · 2200 阅读 · 0 评论