hadoop学习
初入小萌新
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop小例子
安装配置比较简单只需要在官网下载hadoop.taz.gz文件以及jdk即可然后解压到响应的位置,并且配置java环境小例子中的问题:无法解析域名解决方案:这两处的名称要相同...原创 2018-07-10 20:27:30 · 985 阅读 · 0 评论 -
hadoop处理数据的效率的几个因素
1、与文件大小无关,与有效数据读写有关 2、与实际运算的效率有关原创 2018-07-27 11:25:03 · 1411 阅读 · 0 评论 -
Hadoop中MapReduce 的Combiner 的实现
自己实现Combiner package com.mapreduce; import java.io.IOException; import org.apache.hadoop.examples.SecondarySort.Reduce; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Reducer...原创 2018-07-26 16:50:15 · 327 阅读 · 0 评论 -
Hadoop HA高可用搭建流程
一些hadoop 的安装配置文件 安装zookeeper忽略 一切环境都下载,配置文件修改好后 需要先将zookeeper启动 hadoop01,hadoop02,hadoop03都要执行 zkServer.sh start 然后查看每个主机的zkServer.sh status会知道谁是leader,follwer 之后在hadoop01主机下输入 开启每个主机的jour...原创 2018-07-21 14:14:53 · 247 阅读 · 0 评论 -
Hadoop 分区案例(根据不同的值分到不同文件)
主程序代码 package com.mapreduce; import java.io.IOException; import javax.imageio.stream.FileImageInputStream; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; imp...原创 2018-07-26 11:21:34 · 749 阅读 · 0 评论 -
Hadoop MapReduce 的模板
package com.mapreduce; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io...原创 2018-07-26 11:14:59 · 198 阅读 · 0 评论 -
MapReduce的流程
每一行的输入数据,通过split进行区分 然后将区分好的数据存入到各自的Mapping 然后Shuffing将key值相同的归在一起 安装逻辑Reducing最后的值原创 2018-07-25 19:52:08 · 195 阅读 · 0 评论 -
awk处理数据
cat /etc/passwd | awk -F ':' 'BEGIN{print "名字\t用户Id"} {if($3 >=500) print($1,$3)'} ':' :代表按照:进行分割 BEGIN:就是开始做的任务 $3,$1代表分割后第3个和第1个的值 awk -F ':' 'BEGIN{print "名字\t用户Id"} {if($3 >=500) print(...原创 2018-07-25 19:32:13 · 376 阅读 · 0 评论 -
关于yarn jar error Command "jar" not found.
在使用 yarn jar ../share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount /data/hdfs-site.xml /out/02 跳出error Command "jar" not found. 然后进入bin目录下 ./yarn jar ../share/hadoop/mapreduce/h...原创 2018-07-25 11:15:32 · 1558 阅读 · 0 评论 -
关于安装Ambari的坑
先贴上官网安装教程点击打开链接 官网的教程还是比较详细的,但是由于是刚装的虚拟机,有几个问题 最开始的时候卡在了 mvn -B clean install rpm:rpm -DnewVersion=2.6.2.0.0 -DbuildNumber=631319b00937a8d04667d93714241d2a0cb17275 -DskipTests -Dpython.ver="python ...原创 2018-07-13 11:56:03 · 1197 阅读 · 1 评论 -
关于hadoop集群中,webui上没有slave而jps存在datanode的问题
集群结构 hadoop01 主 hadoop02 从 hadoop03从 首先,在主机hadoop01 ping hadoop02 成功ping通 所以在 start-dfs.sh是可以的 并且hadoop02上 jps也有datanode 但是在web ui上却没有显示 然后在hadoop02上 ping hadoop01发现ping不通 就去查看 发现hadoop01不...原创 2018-07-18 11:18:40 · 1668 阅读 · 0 评论 -
hadoopHa高可用搭建时一直出现的错误
在core-site.xml配置文件中 fs.defaultFS的value值不能用端口号,如果有端口号就会连接不上 Operation category READ is not supported in state standby当初出现这个错误的时候,在web ui 中都能看到一个是standby一个是active 重启start-dfs.sh以后就成功了,能够正常对hdfs进...原创 2018-07-23 16:24:11 · 538 阅读 · 0 评论 -
Hadoop生态圈中HBase、Hive、Hdfs的作用
HBase Hbase是类似redis的NoSql数据库,如果需要快速插入和大量读取我们就使用Hbase。 Hive hive是基于Hadoop的一个数据仓库工具 可以将结构化的数据文件映射为一张表,并提供类sql查询功能,Hive底层将sql语句转化为mapreduce任务运行 这样我们使用的时候就不用编写java代码来作mapreduce任务,只需要使用sql语句就能处理hdfs中的...原创 2018-07-17 11:47:08 · 2173 阅读 · 0 评论
分享