
Hadoop
muyingmiao
这个作者很懒,什么都没留下…
展开
-
JVM重用
JVM重用是Hadoop调优参数的内容,其对Hive的性能具有非常大的影响,特别是对于很难避免小文件的场景或task特别多的场景,这类场景大多数执行时间都很短。Hadoop的默认配置通常是使用派生JVM来执行map和Reduce任务的。这时JVM的启动过程可能会造成相当大的开销,尤其是执行的job包含有成百上千task任务的情况。JVM重用可以使得JVM实例在同一个job中重新使用N次。N的值...原创 2019-11-22 23:57:30 · 5193 阅读 · 0 评论 -
hadoop合并小文件的一些方法
小文件: 是那些size比HDFS的block size(默认128M)小的多的文件因为: 任何一个文件,目录和block,在HDFS中都会被表示为一个object存储在namenode的内存中,每一个object占用150 bytes的内存空间。 如果有10million个文件,每一个文件对应一个block,那么就将要消耗namenode 3G的内存来保存这些block的信息。...原创 2019-10-15 09:50:47 · 2384 阅读 · 0 评论 -
MapReduce读取lzo文件
1.读lzo文件需要添加以下代码,并导入lzo相关的jar包job.setInputFormatClass(LzoTextInputFormat.class);2.写lzo文件lzo格式默认是不支持splitable的,需要为其添加索引文件,才能支持多个map并行对lzo文件进行处理如果希望reduce输出的是lzo格式的文件,添加下面的语句 FileOutput...原创 2019-10-11 23:06:19 · 386 阅读 · 0 评论 -
MapReduce多种join实现实例分析(一)
1、在Reudce端进行连接。在Reudce端进行连接是MapReduce框架进行表之间join操作最为常见的模式,其具体的实现原理如下:Map端的主要工作:为来自不同表(文件)的key/value对打标签以区别不同来源的记录。然后用连接字段作为key,其余部分和新加的标志作为value,最后进行输出。reduce端的主要工作:在reduce端以连接字段作为key的分组已经完成,我们只需要在...原创 2019-08-31 22:52:36 · 267 阅读 · 0 评论 -
GroupingComparator分组(辅助排序)的作用以及通过GroupingComparator实现分组topN
mapreduce框架在记录到达reducer之前按照键值对记录排序,但是键所对应的值并没有排序。甚至在不同的执行轮次中,这些值的排序也不固定,因为他们来自不同的map任务且这些map任务在不同的轮次中完成的时间各不相同。一般说来,大多数MapReduce会避免让reduce函数依赖值得排序,但是也有需要通过特定的方法对键进行拍讯和分组已实现对值得排序。现有需求如下:user_id,se...原创 2019-09-02 08:08:19 · 603 阅读 · 0 评论 -
以wordcount为例,将IDEA中的程序作业提交到HDFS集群或者伪分布式遇到的问题
之前很多人跑mapreduce任务只知道在在本地打成jar,提交到hadoop集群上去跑任务,如果出现错误往往很难定位错误,所以远程debug是开发中不可或缺的技能。通常大家都是在本地写好mapreduce任务,希望能在window环境下的IDEA中直接运行。运行环境为:win7,IDEA2017.1.3HDFS环境为VM虚拟机,hadoop伪分布式以一个比较简单的wordcount为例子遇到...原创 2019-09-02 17:18:08 · 374 阅读 · 0 评论 -
HDFS提交到服务器提示找不到第三方jar,通过maven-assembly-plugin自定义打包
hadoop程序引入第三方依赖包fastjson,打包MapReduce程序,到集群上执行,或者在IDEA直接提交到YARN都报Error: java.lang.ClassNotFoundException: com.alibaba.fastjson.JSON...这个错误通过maven-assembly-plugin自定义打包解决此问题首先在pom.xml文件中添加插件声明:<b...原创 2019-09-19 17:26:28 · 1094 阅读 · 0 评论 -
Hadoop压缩方式
使用压缩也是有场景的,压缩也是一个调优点为什么使用压缩 节省空间 MR的reduce会进行shullfer过程中会进行数据的传输,压缩可以减少网络和磁盘的IO压缩的条件 空间和CPU要充裕压缩的技术 有损压缩(lossycompression):压缩和解压的过程中数据有丢失,解压后很难和原数据一致,使用场景:视频 无损压缩(l...原创 2019-09-22 23:43:58 · 405 阅读 · 0 评论 -
Hadoop中,如何通过 -libjars 引入第三方jar
我们可以在使用“hadoo jar”命令时,向启动的job传递“libjars”选项参数,同时配合ToolRunner工具来解析参数并运行Job,这种方式是推荐的用法之一,因为它可以简单的实现job的依赖包和hadoop classpath解耦,可以为每个job单独设置libjars参数。这些jars将会在job提交之后复制到hadoop“共享文件系统中”(hdfs,/tmp文件夹中...原创 2019-09-23 13:46:44 · 3089 阅读 · 0 评论 -
Hadoop(2.6.0-cdh5.15.1)配置lzo压缩
Hadoop经常用于处理大量的数据,如果期间的输出数据、中间数据能压缩存储,对系统的I/O性能会有提升。综合考虑压缩、解压速度、是否支持split,目前lzo是最好的选择。LZO(LZO是Lempel-Ziv-Oberhumer的缩写)是一种高压缩比和解压速度极快的编码,它的特点是解压缩速度非常快,无损压缩,压缩后的数据能准确还原,lzo是基于block分块的,允许数据被分解成chunk,能够被并...原创 2019-10-06 22:53:06 · 575 阅读 · 0 评论 -
INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032 19/08/29 20:07:00 INFO ipc.Clien
在hadoop服务器上运行jar命令,例如:[hadoop@hadoop000 lib]$ hadoop jar wxx-hadoop-1.0.jar com.wxx.bigdata.hadoop.mapreduce.wc.WordCountYARNApp /ruozedata/wc/input /ruozedata/wc/output.报如下错误:19/08/29 20:06:59 INF...原创 2019-08-29 12:49:10 · 7886 阅读 · 0 评论 -
org.apache.hadoop.io.nativeio.NativeIO$Windows.createFileWithMode0(Ljava/lang/String;JJJI)Ljava/io/F
从hdfs上下载数据报如下错误An exception or error caused a run to abort: org.apache.hadoop.io.nativeio.NativeIO$Windows.createFileWithMode0(Ljava/lang/String;JJJI)Ljava/io/FileDescriptor; java.lang.Unsatisfi...原创 2019-08-28 20:41:52 · 1926 阅读 · 3 评论 -
HDFS中JournalNode的作用
NameNode之间共享数据(NFS 、Quorum Journal Node(用得多))两个NameNode为了数据同步,会通过一组称作JournalNodes的独立进程进行相互通信。当active状态的NameNode的命名空间有任何修改时,会告知大部分的JournalNodes进程。standby状态的NameNode有能力读取JNs中的变更信息,并且一直监控edit log的变化,把变...转载 2019-07-29 15:08:10 · 3240 阅读 · 0 评论 -
hadoop fs,hadoop dfs和hdfs dfs的区别
最近面试遇到了一个这样的问题,hadoop fs,hadoop dfs和hdfs dfs的区别,之前一直没有注意这三个命令之间的区别,今天花时间查阅了一下。命令 说明 hadoop fs FS relates to a generic file system which can point to any file systems like local, HDFS etc...原创 2019-08-18 17:16:03 · 2668 阅读 · 0 评论 -
HDFS和YARN的HA架构梳理
HDFS介绍HDFS由四部分组成,HDFS Client、NameNode(NN)、DataNode(DN)和Secondary NameNode(SSN)。 HDFS是一个主/从(Mater/Slave)体系结构,HDFS集群拥有一个NameNode和一些DataNode。NameNode管理文件系统的元数据,DataNode存储实际的数据。HDFS HA的架构图1.DN同...原创 2019-08-19 16:44:03 · 347 阅读 · 0 评论 -
HDFS和YARN的HA集群搭建(Hadoop-2.8.1+Zookeeper-3.4.6)
一.软件版本组件名称 版本 备注即下载地址 Centos 7.2 (Final) 64-bit lsb_release -a 命令查看操作系统版本 file /bin/ls 命令查看操作系统位数 JRE "1.8.0_45" http://www.360sdn.com/Linux/2014/0610/3568.html Hadoop ...原创 2019-08-20 21:23:02 · 859 阅读 · 0 评论 -
start_cluster.sh脚本执行后,zkServer.sh未执行的错误排查和解决方法
为了启动和管理集群方便,一般将HDFS和YARN的命令放在一个脚本中一次执行,start_cluster.sh脚本如下(集群背景:三台机器分别为ruozedata001:zk,nn,dn,jn,rm,ruozedata002:zk,nn,dn,jn,rm,ruozedata003:dn,jn):#!/bin/bash -x#zkssh ruozedata001 "$ZOOKEEPER_...原创 2019-08-24 01:22:29 · 1045 阅读 · 0 评论 -
Hadoop的core-site.xml配置文件
<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration> <!--Yarn 需要使用 fs.defaultFS 指定NameNode URI --> <p...原创 2019-08-20 20:55:27 · 3459 阅读 · 0 评论 -
hdfs-site.xml 详解
<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration> <!--HDFS超级用户 --> <property> <name>dfs.permis...原创 2019-08-20 22:08:14 · 12389 阅读 · 0 评论 -
yarn-site.xml配置详解
<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration> <!-- nodemanager 配置 ==========================================...原创 2019-08-20 22:09:37 · 3702 阅读 · 1 评论 -
mapred-site.xml 配置详解
<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration> <!-- 配置 MapReduce Applications --> <property> <...原创 2019-08-20 22:11:48 · 5376 阅读 · 0 评论 -
HDFS的安全模式介绍
安全模式是HDFS的一种工作状态,处于安全模式的状态下,只向客户端提供文件的只读视图,不接受对命名空间的修改;同时NameNode节点也不会进行数据块的复制或者删除,如:副本的数量小于正常水平。NameNode启动时,首先fsimage载入内存,并执行编辑日志中的操作。一旦文件系统元数据建立成功,便会创建一个空的编辑日志。此时,NameNode开始监听RPC和Http请求。但是此时NameNo...原创 2019-08-21 15:10:07 · 643 阅读 · 0 评论 -
hadoop伪分布式遇到的坑
1.ssh未做认证[hadoop@hadoop000 sbin]$ ./start-all.shThis script is Deprecated. Instead use start-dfs.sh and start-yarn.shStarting namenodes on [hadoop000]hadoop000: /home/hadoop/app/hadoop-2.6.0-cdh5...原创 2019-08-21 19:59:45 · 814 阅读 · 0 评论 -
org.apache.hadoop.io.nativeio.NativeIO$Windows.createDirectoryWithMode0(Ljava/lang/String;I)V的解决方案
最近编写了一个mapreduce程序,在IDEA中执行发现出现这个问题,百度各种方案都不行,花了好久才解决,现在把最近看过和亲测过的方案整理如下,希望能让别人早日出坑。报错信息如下:19/08/27 10:36:57 ERROR Shell: Failed to locate the winutils binary in the hadoop binary pathjava.io.IOEx...原创 2019-08-27 16:28:50 · 2731 阅读 · 2 评论 -
京东云上,centos6.9环境下编译 hadoop-2.6.0-cdh5.15.1,以及遇到的坑
为什么要编译 Hadoop官方提供的Hadoop bin包是不支持一些类似snappy,zlib等本地库功能,所以我们需要重新编译使Hadoop支持这些功能1. 编译前的准备在 hadoop-2.6.0-cdh5.15.1-src.tar.gz 中有一个 BUILDING.txt 文件,里面说明了我们编译需要准备哪些东西,以及编译命令Requirements:* Windows Sy...原创 2019-08-27 23:36:41 · 863 阅读 · 0 评论 -
Hadoop 启动和停止命令说明
sbin/start-all.sh 启动所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、ResourceManager、NodeManagersbin/stop-all.sh 停止所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、ResourceManager、NodeMana...原创 2019-07-29 10:16:37 · 968 阅读 · 0 评论