
hadoop
文章平均质量分 92
jim8973
这个作者很懒,什么都没留下…
展开
-
Hadoop的归档---har
官方文档:https://hadoop.apache.org/docs/current/hadoop-archives/HadoopArchives.html简述hadoop Archive是一个高效地将小文件放入HDFS块中的文件存档文件格式,它能够将多个小文件打包成一个后缀为.har文件,这样减少namenode内存使用的同时,仍然允许对文件进行透明的访问。Hadoop存档是特殊格式的存档。 Hadoop归档文件映射到文件系统目录。 Hadoop归档文件始终具有* .har扩展名。 Hadoop存原创 2020-05-19 22:03:32 · 5503 阅读 · 0 评论 -
Hadoop配置LZO
前置要求安装好hadoop安装好jdk和maven(maven提前配置阿里云连接,不然慢死!)安装前置库yum -y install lzo-devel zlib-devel gcc autoconf automake libtoollzo使用流程下载及安装lzo1、下载wget http://www.oberhumer.com/opensource/lzo/downl...原创 2020-04-11 15:42:45 · 336 阅读 · 0 评论 -
大数据中的压缩
概述一个正常的mr程序,有三个阶段可以进行压缩:map输入,map输出(中间阶段,要求尽可能的快,压缩时间要短),reduce输出hadoop压缩格式一个简单的案例对于集中压缩方式之间的压缩比和压缩速度进行一个感观性的认识测试环境: 8 core i7 cpu8GB memory64 bit CentOS1.4GB Wikipedia Corpus 2-gram text inp...原创 2020-03-29 10:37:44 · 448 阅读 · 0 评论 -
MapReduce的优化
mapreduce.job.jvm.numtasks默认值: 1说明:一个jvm可连续启动多个同类型任务,默认值1,若为-1表示不受限制开启JVM 重用对于大量小文件Job,可以开启JVM 重用会减少 45%运行时间。JVM 重用理解:一个 map 运行一个 jvm,重用的话,在一个 map 在 jvm 上运行完毕后,jvm 继续运行其他 map。具体设置:mapreduce.job.jvm...原创 2020-03-15 18:32:59 · 527 阅读 · 0 评论 -
Hadoop mapreduce递归统计文件夹下的文件
需要配置vi mapred-site.xml <property> <name>mapreduce.input.fileinputformat.input.dir.recursive</name> <value>true</value> </property>这样就可以统计如下文...原创 2020-02-08 11:11:24 · 624 阅读 · 0 评论 -
Hadoop运行瘦包
服务器提交mr任务正常任务如下hadoop jar ruozedata-hadoop.jar com.ruozedata.bigdata.hadoop.mapreduce.wc.WCDriver /wordcount/input1 /wordcount/output2需要额外依赖jar,得使用HADOOP_CLASSPATH和-libjarsexport HADOOP_CLASS...原创 2020-01-20 22:38:39 · 233 阅读 · 0 评论 -
Hadoop操作HDFSAPI 错误org.apache.hadoop.ipc.RemoteException(java.io.IOException)
客户端操作HDFS的API的时候,出现如下错误org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /hdfsapiv2/order_created.txt could only be replicated to 0 nodes instead of minReplication (=1). There are 1 da...原创 2020-01-12 11:22:13 · 3066 阅读 · 0 评论 -
生产环境调优Container参数
ContainerContainer是nodemanager虚拟出来的容器,用来运行task任务的,调优维度是memory+vcore如何优化Container参数??假设128G,16个物理core的服务器装完Centos,消耗内存1G系统预留15%-20%内存(大概26G,其中包含Centos系统占用的1G内存),用来防止全部使用导致系统夯住和oom机制,或者给未来部署组件预留点空...原创 2019-12-13 12:45:53 · 1339 阅读 · 1 评论 -
MapReduce原理
MapReduceMap:映射,多个,具体根据资源以及需求去设定,Reduce:聚和,生产上默认是一个。MR2.x的架构设计(MR on Yarn流程、Mr提交job)Yarn:ResourceManager和NodeManagerResourceManager:Applications Manager和Resource Scheduler...原创 2019-12-11 08:13:09 · 260 阅读 · 0 评论 -
HDFS的存储原理
块block的大小默认是128M,hdfs-site.xml<property> <name>dfs.blocksize</name> <value>134217728</value></property>副本数默认是3,hdfs-site.xml<property> <name>...原创 2019-12-03 22:58:52 · 1636 阅读 · 0 评论 -
hadoop伪分布式安装yarn(CDH5.16.2版本)
yarn安装原创 2019-12-02 08:12:59 · 396 阅读 · 0 评论 -
hadoop伪分布式安装HDFS(CDH5.16.2版本)
安装步骤root用户安装JDK创建目录:mkdir /usr/java,上传jdk-8u45-linux-x64.gz包到该目录解压 tar -zxvf jdk-8u45-linux-x64.gz修改用户和用户组:chown -R root:root jdk1.8.0_45建立软连接:ln -s jdk1.8.0_45 jdk修改环境变量:vi /etc/profileexpo...原创 2019-12-01 22:56:03 · 452 阅读 · 0 评论 -
windows下hadoop 2.7.3版本运行mr程序
hadoop2.7.3版本运行mr需要在配置环境变量HADOOP_HOME=D:\hadoop\hadoop-2.7.3\bin并且把hadoop.dll和winutils.exe拷贝到bin目录下同时需要把hadoop.dll拷贝System32下,否则报错Exception in thread “main” java.lang.UnsatisfiedLinkError: org.apa...原创 2019-06-09 23:06:48 · 429 阅读 · 0 评论