
hadoop学习之路
文章平均质量分 79
BaldWinf
这个作者很懒,什么都没留下…
展开
-
Linux环境准备
Linux环境准备在VMware中安装Linux后,用root用户登陆 配置网络虚拟机的环境搭建 点击Edit的Virtual Network Editor可以打开 这里面有三块网卡,VMnet0、VMnet1、VMnet8分别是三种类型 将VMnet1设置为0网段 并在Virtual Machine Settings中配置NetworkAdapter为Host-only,即使用网卡1原创 2016-05-03 00:49:01 · 4607 阅读 · 0 评论 -
想用windows写MapReduce,但是执行的时候走集群,该怎么做
如果直接在linux下安装eclipse或者idea运行是最方便的。但是linux下编程并不方便,所以想用windows。直接用idea run一段mapreduce的时候,in是取自hdfs://…. out也是取自hdfs://… 上的,结果是运行不起来的。原因是本地没有hadoop环境。1、解压hadoop放到喜欢的目录下 2、下载hadoop-common-2.2.0-bin http原创 2017-04-03 21:06:15 · 1415 阅读 · 0 评论 -
eclipse安装hadoop插件
一、编译hadoop eclipse插件 可以自己编译,也可以下载别人编译好的 http://download.youkuaiyun.com/download/mijinghjb/6929315 1、在github上下载hadoop2x-eclipse-plugin 2、修改hadoop2x-eclipse-plugin-master/src/contrib/eclipse-plugin/下的 bui原创 2017-04-03 11:23:38 · 5154 阅读 · 1 评论 -
hadoop编程实战——日志分析
上传日志文件到hadoop的dfs当中去一、根据上述日志文件,计算该天的独立ip数,pv数(注意要筛选日志,并非每条记录都要统计),被传输页面的总字节数1、将日志信息分为8个字段,创建指标对象KPIimport java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;import java原创 2017-04-03 01:20:21 · 3363 阅读 · 2 评论 -
Hadoop运行jar文件
命令如下// 运行当前目录下的MinTemperature.jar包,有两个参数hadoop jar ./MinTemperature.jar /week4/in/tempreture.txt /week4/out5生成jar包。建议指定main class原创 2017-03-25 21:56:16 · 1929 阅读 · 0 评论 -
Hadoop的HA实现
如果NameNode宕机了,就会导致整个Hadoop集群无法正常工作。 为了确保高可用,我们需要实现Hadoop的HA。关键点在于:当一台NameNode宕机之后,如何做到无缝切换到另一台NameNode。 为了解决这个问题,我们首先需要讨论以下几个问题能否让两台NN都正常响应客户的请求?显然时不行的,如果两台机器都接收请求,将会导致处理逻辑混乱。standby状态的节点原创 2017-03-02 01:16:00 · 8335 阅读 · 0 评论 -
如何用命令 编译hadoop的java文件
hadoop编译需要的jar包// 由于环境是hadoop2.x所以,没有hadoop1.x中的hadoop-core.jar文件,需要用到hadoop-common和hadoop-annotationsjavac -classpath $HADOOP_HOME/share/hadoop/common/hadoop-common-2.4.1.jar:$HADOOP_HOME/share/hadoo原创 2017-03-25 18:32:48 · 2393 阅读 · 0 评论 -
Hadoop快速实战(二)——搭建分布式
前提,需要有linux环境参见linux环境准备一、安装hadoop1、上传hadoop我所使用的hadoop是hadoop-2.4.1.tar.gz,将其上传到用户所在目录下,并在用户目录下创建app目录,用于方便管理。将hadoop解压到该目录下2、hadoop目录说明进入app中可以看到hadoop-2.4.1的目录,进入看到 bin:可执行文件目录sbin:系统可执行文件etc:配置文原创 2017-02-08 16:42:14 · 549 阅读 · 0 评论 -
HIVE入门
hive是将sql转换为mr的工具,非常好用。安装好之后,可以执行bin下面的hive。 尝试创建一张表吧注意:hive是不支持insert命令的,因为hdfs是只读的。原创 2017-03-02 22:57:32 · 215 阅读 · 0 评论 -
Hadoop快速实战(三)——HDFS原理
一、HDFS架构主要包括:NameNodeDataNodeSecondaryNameNodeNameNode工作原理存储流程 1、客户端发送存储请求 2、服务端NameNode接收请求后,返回分配的DataNode节点 3、客户端收到信息后,将文件切分为多个block写入到DataNode 4、DataNode将得到的blk同步到其他DataNode形成备份,一般三份 5、如果Da原创 2017-02-13 17:16:01 · 1396 阅读 · 0 评论 -
Hadoop常见shell操作
查看操作帮助文档 hadoop fs1、查看指定目录下内容hadoop dfs –ls [文件目录]eg: hadoop dfs –ls /user/wangkai.pt2、打开某个已存在文件hadoop dfs –cat [file_path]eg:hadoop dfs -cat /user/wangkai.pt/data.txt3、将本地文件存储至hadoophadoop fs –put [本转载 2017-02-09 11:23:03 · 1286 阅读 · 0 评论 -
Hadoop快速实战(一)——基本概念
一、什么是HadoopThe Apache hadoop project develops open-source software for reliable,scalable,distributed computing所以hadoop首先是个项目,这个项目专门开发软件,开发可靠地,可扩展的,用于分布式计算的软件。解决问题: 海量数据的存储(HDFS) 海量数据的分析(MapR原创 2017-02-08 10:18:37 · 400 阅读 · 0 评论