
Hadoop
Zsigner
这个作者很懒,什么都没留下…
展开
-
HDFS文件读写流程
推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅https://www.cnblogs.com/whoyoung/p/11195698.html存储流程a)Clinet首先将要存储的数据切分成若干块,然后向NameNode发送存储请求,b)NameNode检查权限、存储文件是否已存在等信息,确认无误后返回允许存储的响应,这个响应还包括第一个Block要放在哪个DataNode哪个的地址的信息。c)C...转载 2020-07-12 22:45:45 · 174 阅读 · 0 评论 -
YARN调度器(Scheduler)详解
推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅https://www.cnblogs.com/lenmom/p/11285273.html理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的转载 2020-05-14 18:46:34 · 326 阅读 · 0 评论 -
mapreduce的二次排序 SecondarySort
推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅https://www.cnblogs.com/xuxm2007/archive/2011/09/03/2165805.html关于二次排序主要涉及到这么几个东西:在0.20.0以前使用的是setPartitionerClasssetOutputkeyComparatorClasssetOutputValueGroupingComparator在0.20.0以后使用是job.setPartitio...转载 2020-05-14 17:04:12 · 250 阅读 · 0 评论 -
HDFS 架构及原理学习
推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅https://blog.youkuaiyun.com/xjz729827161/article/details/79463140https://www.cnblogs.com/codeOfLife/p/5375120.htmlHDFS简介HDFS:Hadoop Distributed File System(hadoop分布式文件系统)分布式,感觉好厉害的样子啊,有网络文件系统,有本地文件系统,现在又多了一个分布式的文件系统。.转载 2020-05-13 21:53:51 · 360 阅读 · 0 评论 -
idea运行map Reduce 时报:错误: 找不到或无法加载主类
问题描述: 使用idea编辑器,使用maven构建hadoop的mapreduce项目,在运行的时候提示报错:错误: 找不到或无法加载主类 com.hnxy.bin.JobRunner错误排查:1 可能是java的环境变量错误解决方案:查看java的环境变量是否 正确2 可能是未能成功编译:解决方案: 菜单---》Build---》Rebuild Prodject3 ...转载 2020-03-06 17:02:11 · 1272 阅读 · 0 评论 -
【HADOOP】MapReduce :java.lang.ClassNotFoundException: WordCount
正确命令应该为:hadoop jar /hadoop-2.7.7/share/hadoop/mapreduce/sources hadoop-mapreduce-examples-2.7.7-sources.jar org.apache.hadoop.examples.WordCount /input/words.txt /output注意:报错原因是因为忽略了前面的包路径,直接hado...原创 2020-01-19 10:56:13 · 485 阅读 · 0 评论 -
Java大数据学习15--Hbase的JavaAPI使用(查询条件过滤器)
Hbase中的过滤器相当于sql中的查询条件,通过各种过滤器我们可以实现多样化的查询功能。下面我们来介绍一下这些过滤器。一、过滤器的种类:1、列植过滤器—SingleColumnValueFilter过滤列植的相等、不等、范围等2、列名前缀过滤器—ColumnPrefixFilter过滤指定前缀的列名3、多个列名前缀过滤器—MultipleColumnPref...转载 2019-10-22 11:38:30 · 410 阅读 · 0 评论 -
Flume概念与原理、与Kafka优势对比
1 .背景flume是由cloudera软件公司产出的可分布式日志收集系统,后与2009年被捐赠了apache软件基金会,为hadoop相关组件之一。尤其近几年随着flume的不断被完善以及升级版本的逐一推出,特别是flume-ng;同时flume内部的各种组件不断丰富,用户在开发的过程中使用的便利性得到很大的改善,现已成为apache top项目之一.2 .概述1....转载 2019-10-16 12:03:04 · 255 阅读 · 0 评论 -
hadoop filesystem 删除文件 复制文件 重命名文件
hadoop filesystem 删除文件 复制文件 重命名文件private void moveFile(Configuration conf, String Path1, String Path2, String newname ) throws IOException {FileSystem fs = FileSystem.get(conf);FileStatus[] status...转载 2019-10-15 12:18:02 · 588 阅读 · 0 评论 -
hadoop 2.7 添加或删除datanode节点
1.测试环境ip 主机名 角色 10.124.147.22 hadoop1 namenode 10.124.147.23 hadoop2 namenode 10.124.147.32 hadoop3 resourcemanager 10.124.147.33 hadoop4 resourcemanager 10.1...转载 2019-10-12 15:47:52 · 416 阅读 · 0 评论 -
[面试题]海量数据处理-从10亿个数中找频率最高的1000个数
方法一:分治思想通常比较好的方案是分治+Trie树/hash+小顶堆(就是上面提到的最小堆),即先将数据集按照Hash方法分解成多个小数据集,然后使用Trie树或者Hash统计每个小数据集中的query词频,之后用小顶堆求出每个数据集中出现频率最高的前K个数,最后在所有top K中求出最终的top K。方法二:hadoop的map,reducetop K问题很适合采用MapReduce...转载 2019-10-12 15:31:16 · 1411 阅读 · 0 评论 -
spark sql运行出错(Container killed on request. Exit code is 143)
Diagnostic Messages for this Task:Container [pid=27756,containerID=container_1460459369308_5864_01_000570] is running beyond physical memory limits. Current usage: 4.2 GB of 4 GB physical memory used; 5.0 GB of 16.8 GB virtual memory used. Killing contain转载 2019-10-11 14:29:34 · 3880 阅读 · 0 评论 -
【MAPREDUCE】MapReduce : Container killed on request. Exit code is 143
错误具体详情:Container [pid=19750,containerID=container_e41_1570670743082_0094_01_000027] is running beyond physical memory limits. Current usage: 1.0 GB of 1 GB physical memory used; 10.1 GB of 2.1 GB vi...原创 2019-10-11 14:25:39 · 1317 阅读 · 0 评论 -
【HDFS】hadoop hdfs 异常解决
1.删除其他用户下带有特殊字符的文件名,eg:product\one执行命令:sudo -u hdfs hadoop fs -rmr '/user/zhangsan/product\\one'原创 2019-09-29 11:37:28 · 375 阅读 · 0 评论 -
【HADOOP】Hadoop javaAPI运行append时报错 lease recovery is in progress 处理办法
参考:https://blog.youkuaiyun.com/xutao_ccu/article/details/84729640如集群节点少于3个在运行时就会抛异常;解决方案修改【dfs.client.block.write.replace-datanode-on-failure.policy=NEVER】Configuration conf = new Configuration();conf...原创 2019-07-18 00:46:42 · 1066 阅读 · 0 评论 -
【HADOOP】hadoop 8088端口无法访问
参考:https://blog.youkuaiyun.com/third_/article/details/85309653Hadoop成功启动后ip:50070可以访问到页面,但是ip:8088提示无法访问该网站。问题出在hadoop文件夹下/etc/hadoop/目录下的配置文件:yarn-site.xml修改yarn-site.xml文件,将其<configuration>&...原创 2019-07-08 16:06:04 · 6424 阅读 · 16 评论 -
hadoop无法访问50070端口怎么办?
转:https://blog.51cto.com/12306609/2096541Hadoop 50070是hdfs的web管理页面,在搭建Hadoop集群环境时,有些大数据开发技术人员会遇到Hadoop 50070端口打不开的情况,引起该问题的原因很多,想要解决这个问题需要从以下方面进行排查!1.排查Namenode是否部署成功排查Namenode是否部署成功可以采用命令/etc/...转载 2019-07-08 11:45:54 · 1738 阅读 · 0 评论 -
Hadoop _ 疑难杂症 解决1 - WARN util.NativeCodeLoader: Unable to load native-hadoop library for your plat
转:https://blog.youkuaiyun.com/u010003835/article/details/81127984最近博主在进行Hive测试 压缩解压缩的时候 遇到了这个问题,该问题也常出现在日常 hdfs 指令中, 在启动服务 与 hdfs dfs 执行指令的时候 :都会显示该提示,下面描述下该问题应该如何解决:参考文章:Hadoop之—— WARN util.Na...转载 2019-07-08 09:30:24 · 3991 阅读 · 0 评论