
hadoop
文章平均质量分 86
王叫瘦
这个作者很懒,什么都没留下…
展开
-
初识hadoop 读hadoop权威指南
hadoop主要是用于处理大数据量(PB级别)的数据,hadoop提供了一个稳定的共享存储和分析系统。存储由hdfs实现,分析由mapreduce 实现。这两个功能是hadoop的核心。hadoop技术栈:PigChukwaHiveHbaseMapreduceHdfsZookeepercoreavro扩展:技术栈是一项工作或者职位所需的一系列技术统称。hadoop技术栈简单介绍: ...原创 2018-05-25 15:50:10 · 931 阅读 · 0 评论 -
hadoop 的 join 用法
需求: /* * 把订单和商品表进行关联查询 */订单表: id date pid amount 1001 20150710 P0001 2 1002 20150710 P0001 3 1002 20150710 P0002 3 商品表: id pname category_id price P0001 小米5 1000 ...原创 2019-08-16 20:32:46 · 320 阅读 · 1 评论 -
hadoop 求共同好友
以下是qq的好友列表数据,冒号前是一个用户,冒号后是该用户的所有好友(数据中的好友关系是单向的)A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J求出哪些人两两...原创 2019-08-20 19:23:05 · 322 阅读 · 0 评论 -
mapreduce 排序
需要进行排序的文本:a 1a 9b 3a 7b 8b 10a 5a 9主类package com.wxj.sort;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apac...原创 2019-08-09 17:47:15 · 228 阅读 · 0 评论 -
hadoop中的文件压缩
在大数据中为什么要使用压缩1 减少磁盘的存储空间2 减少磁盘IO和网络IO3 加快数据传输速度(磁盘和网络),如果小文件多明显文件传输会明显降低怎么选一个压缩方式,需要考虑的是什么?1 考虑文件的压缩效率------》压缩快慢2 考虑文件的压缩比----------》解压快慢第一点好理解,压缩的快肯定好第二点是压缩比,举例现在有一个10G的文件,一种压缩算法能...原创 2019-08-13 17:16:22 · 429 阅读 · 0 评论 -
(key.hashCode() & Integer.MAX_VALUE) % numReduceTasks
public class HashPartitioner<K2, V2> implements Partitioner<K2, V2> { public HashPartitioner() { } public void configure(JobConf job) { } public int getPartit...原创 2019-08-05 21:09:11 · 2429 阅读 · 2 评论 -
mapreduce -天龙八部 示例wordcount
下面是要执行单词统计的文本hello,helloworld,worldhadoop,hadoophello,worldhello,flumehadoop,hivehive,kafkaflume,stormhive,oozie主类package com.wxj.mapreduce;import org.apache.hadoop.conf.Configura...原创 2019-08-05 09:00:26 · 421 阅读 · 0 评论 -
java api操作hdfs
package com.wxj.hdfs;import org.apache.commons.io.IOUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.junit.Test;import java.io.File;import java.io.Fi...原创 2019-08-04 13:04:54 · 145 阅读 · 0 评论 -
在学习hadoop中遇到的问题
错误内容包括mapreduce、hive、flume、azkaban、sqoop、1 启动程序报错:19/08/02 16:19:12 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicab...原创 2019-08-02 16:32:57 · 3207 阅读 · 0 评论 -
浏览器不能使用主机名访问,能使用ip访问的问题处理记录
第一 我已经设置的主机名 为 node01.hadoop.com第二 我已经通过修改 /etc/hosts/文件为 192.168.xxx.xxxnode01.hadoop.com node01 完成了域名映射第三 通过ping node01 或者node01.hadoop.com 都能正常解析第四 在centos上启动服务后,访问http://node...原创 2019-07-10 13:20:49 · 2156 阅读 · 0 评论 -
hadoop(八) hadoop源码导入eclipse(IDEA)
环境:eclipse,hadoop-2.6.4.tar.gz 解压包第一步 新建一个java project;第二步 把share下的hadoop做成一个lib库; 向library添加jar包添加common中jar包添加hdfs的jar包: ...原创 2018-06-07 17:24:56 · 3206 阅读 · 0 评论 -
hadoop(六)hadoop fs 命令详情
在xhsell或者其他链接工具上输入hadoop fs 即可出现提示1 hadoop fs -ls <path> 列出指定目录下的内容,支持pattern匹配。输出格式如filename(full path)<r n>size.n代表备份数。2 hadoop fs -lsr <path> 递归列出该路径下所有子目录信息3 hadoop fs du此外还可...原创 2018-05-31 09:31:30 · 42294 阅读 · 0 评论 -
hadoop(五) 伪分布式安装hadoop
伪分布式安装: 1 关闭防火墙和selinux 直接关闭防火墙: systemctl stop firewalld.service 禁止firewall开机启动 : systemctl disable firewalld.service 查看防火墙状态:firewall-cmd --state 关闭selinux v...原创 2018-05-30 16:42:30 · 601 阅读 · 0 评论 -
hadoop(七) hadoop 集群安装
hadoop 集群安装 环境准备: 1 vmware ;2 centos7 minial;3 hadoop-2.6.4 ;4 jdk1 新建四台虚拟机,分别命名为mini1,mini2,mini3,mini4 此处为什么要建四台虚拟机,namenode是管理datanode的,所以把namenode单独放在一个机器上维护,其他三台机器放置datanode和yarn。 四台虚拟机分...原创 2018-06-06 11:07:22 · 355 阅读 · 0 评论 -
在学习实践hadoop的遇到的问题总结(持续总结)
问题1 $HADOOP_HOME is deprecated 但是不影响mapreduce的功能 在hadoop-env.sh中 添加export HADOOP_HOME_WARN_SUPPRESS=”TRUE”,即可不出现这个警告问题2 第二次执行hadoop jar hadoop-examples-1.2.1.jar grep /usr/data/input /usr/d...原创 2018-05-30 09:28:12 · 774 阅读 · 0 评论 -
hadoop (四) 单机安装hadoop
hadoop 安装部署的三种模式: 单机(本地)安装(standalone mode):部署在一台机器上,没有分布式不使用hdfs,主要用于本地开发和调试。 伪分布式安装(pseudo-distributed mode):一台机器上运行所有的hadoop 服务,每个hadoop守护进程都是一个独立的jvm进程,常用于调试。 ...原创 2018-05-29 16:56:54 · 1897 阅读 · 0 评论 -
hadoop(三)环境准备
搭建hadoop环境准备: 我使用的是虚拟机是vmware ,镜像使用的是centos 7.0 64位 在配置的过程中选择nat连接的网络模式,其他的都不用修改。在centos7中ifconfig命令不在起作用,需要使用ip addr命名查询ip。 配置ip地址等: cd /etc/sysconfig/network-scripts/ 复制出...原创 2018-05-29 10:23:30 · 287 阅读 · 0 评论 -
初识hadoop 读hadoop权威指南(二)
这篇开始学习hadoop的hdfs hdfs 是为以流式数据访问模式存储超大文件而设计的文件系统,不需要再高可靠性的昂贵的硬盘上运行,只需要在普通硬盘上就可以。 概念 什么是流式数据? 流式数据就是数据不断地传输,实时处理的数据,也是封装成为byte格式。如果觉得不好理解的话,把流式数据和批式数据对比起来可能就比较好。流式数据是为了解决实时数据流,而批式数据是数据...原创 2018-05-27 20:39:14 · 293 阅读 · 0 评论