
Hadoop
文章平均质量分 62
oo寻梦in记
这个作者很懒,什么都没留下…
展开
-
【Hadoop】-- hadoop3.x default port
【代码】【Hadoop】-- hadoop3.x default port。原创 2024-12-11 18:07:53 · 280 阅读 · 0 评论 -
【Hive 基础】-- 数据倾斜
由于数据分布不均匀,导致大量数据集中到一点,造成数据热点。常见现象:一个 hive sql 有100个 map task, 有一个运行了 20分钟,其他99个 task 只运行了 1分钟。原创 2023-03-08 15:54:01 · 1647 阅读 · 0 评论 -
[Hadoop基础]--HDFS的读写流程和原理
感谢原文作者:https://www.jianshu.com/p/29ebfbd766e6根据Maneesh Varshney的漫画改编,以简洁易懂的漫画形式讲解HDFS的存储机制与运行原理。1、构成部分HDFS存储相关角及功能如下:Client:客户端,系统使用者,调用HDFS API操作文件;与NN交互获取文件元数据;与DN交互进行数据读写。Namenode:元数据节点,是系统唯一...转载 2018-07-16 15:56:14 · 2066 阅读 · 0 评论 -
[面试]-- Hadoop常识性的面试题
1. 集群多少台, 数据量多大, 吞吐量是多大, 每天处理多少G的数据?2. 我们的日志是不是除了apache的访问日志是不是还有其他的日志?3. 假设我们有其他的日志是不是可以对这个日志有其他的业务分析?这些业务分析都有什么?4. 你们的服务器有多少台?服务器的内存多大?5. 你们的服务器怎么分布的?(这里说地理位置分布,最好也从机架方面也谈谈)6. 你平常在公司都干些什么(...转载 2017-07-17 11:03:37 · 1177 阅读 · 2 评论 -
[Hadoop基础]-- hadoop完全分布式集群(准备节点数4个,h15、h16、h17、h18)
h15、h18是namenode;h15、h16、h17、h18是datanode【A】 所有机器都要安装jdk,配置用户的环境变量:vi ~/.bash_profile【B】 复制hadoop-2.5.1_x64.tar.gz到h15中,解压到”/opt”目录下,关闭h15,准备克隆机器h16、h17、h18【C】 修改h16、h17、h18的网卡和mak地址修改/etc/hos...原创 2016-06-06 13:10:58 · 898 阅读 · 0 评论 -
[Yarn基础]-- yarn application -kill jobid
CDH中kill application的方式:1、找到yarn命令,如果命令没有可执行权限,那么需要添加#sudo chmod +x bin2、找到job的id:通过点击cloudrea manager中的主机-----》host27.master---->点击 红框 ----》点击进入机器的8088端口url: http://host...原创 2016-07-18 13:06:14 · 20266 阅读 · 0 评论 -
[Hadoop基础]-- 执行yarn命令报权限问题错误
# yarn application -kill application_1469066281048_9314 16/08/08 10:39:23 INFO client.RMProxy: Connecting to ResourceManager at master-27.dev.cluster.enn.cn/10.1.150.7:803216/08/08 10:39:24 WARN...原创 2016-08-08 10:51:07 · 4488 阅读 · 0 评论 -
[Yarn基础]-- Apache Yarn 、 Apache Twill 和 Apache Slider 的对比
一、Apache Yarn 、Twill和 Slider 的介绍1、Apache YarnYARN的基本思想是将资源管理和作业调度/监视的功能分解为单独的守护进程。我们的想法是拥有一个全局ResourceManager(RM)和每个应用程序ApplicationMaster(AM)。应用程序可以是单个作业,也可以是作业的DAG。ResourceManager和NodeManager构成了数据...原创 2019-01-12 20:54:29 · 1600 阅读 · 0 评论 -
[Yarn基础]-- Yarn资源分配
背景在 2018年 11月的某一天,我发现 spark-submit 设置的资源参数未生效( –executor-cores 10),仔细排查后定位是Yarn 的分配策略使用有误,由于我们集群是使用 Ambari 安装的,未修改Yarn默认的分配策略(org.apache.hadoop.yarn.util.resource.DefaultResourceCalculator),所以导致 集群的...原创 2019-01-13 18:48:51 · 2055 阅读 · 1 评论 -
[Hadoop基础]--what is hdfs nfs gateway ?
介绍HDFS的NFS网关允许客户端挂载HDFS并通过NFS与其进行交互,就像它是本地文件系统的一部分一样。网关支持NFSv3。安装HDFS后,用户可以: 在NFSv3客户端兼容的操作系统上通过其本地文件系统浏览HDFS文件系统。 在HDFS文件系统和本地文件系统之间上载和下载文件。 通过挂载点将数据直接传输到HDFS。(支持文件追加,但不支持随机写入。) ...翻译 2019-03-01 10:43:24 · 744 阅读 · 5 评论 -
[大数据面试]-- 6.Hadoop 题目
============================================================================================1、集群规模、配置怎样?2、namenode端口3、Hadoop的集群管理模式4、如何更改输出文件的名称5、Mapereduce是多进程模式、Spark是多线程模式(task用完资源就释放,启动t...原创 2019-08-05 21:36:20 · 451 阅读 · 0 评论 -
[Hadoop进阶]--HDFS读写流程剖析
感谢原文链接:https://www.jianshu.com/p/7d1bdd23c460HDFS读写流程剖析本文为 《Hadoop The Definitive Guide 4th Edition》的读书笔记(或者叫翻译),仅限交流使用, 转载请注明出处。一、剖析读流程下面这个图片 3-2 总结性的描述了读文件时客户端与 HDFS 中的 namenode, datanode 之间的数据流动。从H...转载 2018-06-12 10:10:05 · 747 阅读 · 0 评论 -
[Hadoop基础]--java操作hdfs(上传、下载、查询)
一、新建java project二、导入hdfs的配置文件到src目录下core-site.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xml三、导入相关jar(hadoop的所有jar包)四、编写测试类import java.io.File;import java.io.FileInputStream;import org.apache.commons....原创 2016-05-23 13:37:33 · 1715 阅读 · 0 评论 -
[Zookeeper基础]-- linux下搭建zookeeper集群
安装zookeeper步骤 1\\准备机器h15、h16、h17 注意:机器之间需要两两免密码登陆 将zookeeper文件复制到h15\h16\h17上,并且解压相关说明文档在解压文件路径下: zookeeper-3.4.6/zookeeper-3.4.6/docs/zookeeperStarted.html 2\\搭建zookeeper:使用...原创 2016-06-28 22:43:10 · 816 阅读 · 0 评论 -
[Hadoop基础]-- hadoop中的assertThat日志
主题:说明hadoop中的assertThat日志是使用断言实现的1、定义:assertion(断言)是Java1.4引入的一个新特性,该特性的引入的目的是为了辅助开发人员调试和测试。2、assertion概念以及基本用法: 在代码实现的时候,需要使用关键字assert,而assertion本身在程序里面就是一条语句,它的作用是对boolean表达式进行检查,正确保证这个boolean表...原创 2016-09-18 23:11:02 · 1058 阅读 · 0 评论 -
[Hadoop基础]-- MapReduce详解及开发优化
MapReduce详解及开发优化 一、MapReduce详解参考:http://blog.youkuaiyun.com/lifuxiangcaohui/article/details/22675437 二、开发优化参考:http://www.tuicool.com/articles/AvMJJ3 ...转载 2016-11-14 09:51:15 · 597 阅读 · 0 评论 -
[Hadoop基础]-- 常用命令
1、查看A电脑是否能够联通B电脑的某个端口先安装命令:#yum install telnet -y再查看: #telnet 192.168.142.115 8088 2、查看hdfs上的文件目录(/test/flume)是否存在#hadoop fs -test -e /test/flume#echo $?如果返回值是1,代表不存在目录如果返回值是0,代表存...原创 2016-06-10 15:24:00 · 3403 阅读 · 0 评论 -
[Hadoop基础]-- web hdfs端口50075和httpfs端口14000的使用
参考文档CDH介绍hadoop组件的端口: https://www.cloudera.com/documentation/enterprise/latest/topics/cdh_ig_ports_cdh5.htmlHadoop官方介绍web hdfs: http://hadoop.apache.org/docs/r2.6.5/hadoop-project-dist/hadoop-hdfs...原创 2017-02-23 10:21:35 · 11222 阅读 · 0 评论 -
[Hadoop基础]-- hadoop集群之间的copy---->distcp
DistCp概述 使用方法 基本使用方法 选项 选项索引 更新和覆盖 附录 Map数目 不同HDFS版本间的拷贝 Map/Reduce和副效应 概述DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝...原创 2017-02-04 09:54:48 · 11099 阅读 · 0 评论 -
[Hadoop基础]-- hadoop shell命令汇总
Hadoop Shell命令FS Shell cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text to...原创 2017-02-04 09:56:21 · 682 阅读 · 0 评论 -
[Hadoop基础]-- java代码Kerberos认证错误(hadoop本地库问题)
一、信息2017-05-16 11:58:45 [ main:0 ] - [ WARN ] org.apache.hadoop.util.NativeCodeLoader.<clinit>(NativeCodeLoader.java:62) Unable to load native-hadoop library for your platform... using builti...原创 2017-05-16 14:48:38 · 1497 阅读 · 0 评论 -
[Hadoop基础]-- 验证hadoop本地库是否加载成功
1、验证本地库是否加载成功的命令如下#hadoop checknative 2、验证成功的结果原创 2017-05-10 11:23:12 · 728 阅读 · 0 评论 -
[集群规划]-- 大数据测试机器和生产机器的配置
一、测试机器(共11台):除了这6台外,还有单独的物理机器:2台mysql机器、1台kafka机器、2台nginx服务器 二、生产机器(18台):生产机器除了这13台以外还有:2台mysql机器、1台kafka机器、2台nginx服务器。 cpu的负载能力:详细解释:http://blog.sina.com.cn/s/blog_6090a6ba0101kac...原创 2016-07-18 18:58:15 · 3070 阅读 · 0 评论 -
[Hadoop shell命令]--处理hdfs上错误的block块并修复
情景:运行Spark程序出现报错1、报错信息:17/05/09 14:30:58 WARN scheduler.TaskSetManager: Lost task 28162.1 in stage 0.0 (TID 30490, 127.0.0.1): java.io.IOException: Cannot obtain block length for LocatedBlock{BP-20353...原创 2017-05-18 11:45:27 · 15980 阅读 · 4 评论 -
[Hadoop基础]--用户自定义mapreduce输出的文件名称
前言 有这样一个需求:在reduce结束后,输出的文件名称为用户自定义,且要求没有空文件输出。方案 方案1:单个输出,获取上下文配置,修改文件名称。 方案2:参考spark使用MultipleOutputs输出。这里主要说说方案2的实现方式。1、需要保证输出文件没有空2、自定义输出文件名称3、具体实现(1)在org.apache.hadoop.mapreduce.Job中设置...原创 2018-01-16 10:44:12 · 2293 阅读 · 4 评论 -
[Hadoop基础]-- Hadoop namenode的HA搭建
基本架构如下 1\\准备机器h15、h16、h17、h18将zookeeper文件复制到h15\h16\h17上,并且解压说明如下:zookeeper-3.4.6/zookeeper-3.4.6/docs/zookeeperStarted.html2\\搭建zookeeper:使用机器h15\h16\h17(非单机版配置需要添加红色字体内容)【a】分别在h15\h16\...原创 2016-06-06 13:23:29 · 7922 阅读 · 0 评论