
hadoop
文章平均质量分 58
扎克伯哥
彩笔
展开
-
hadoop2.7.1中用原生python编写mapreduce
之前用到的hadoop命令:创建目录:hadoop fs -mkdir [-p] dirname列出目录:hadoop fs -ls dirname删除文件或目录:hadoop fs -rmr filename/dirname上传文件:hadoop fs -put file filename/dirname启动hadoop:sbin/start-all.sh关闭hado原创 2015-10-30 13:21:58 · 2227 阅读 · 0 评论 -
python统计《悲惨世界》中出现次数最多的20个单词并绘制柱状图
处理的数据像这样的csv文件,已经统计好了,用mapreduce处理的you,3768i,3930not,3981this,4208at,4292on,4714with,4737which,5506is,6504had,6564his,6813it,7026that,8413was,9251he,10280in,11813to,14663a,15366and原创 2015-11-07 21:52:30 · 3051 阅读 · 0 评论 -
hadoop的五个守护进程
一般如果正常启动hadoop,我们可以在master上通过jps命令看到以下5个daemons:[root@master ~]# jps19803 SecondaryNameNode19994 TaskTracker31144 Jps19571 NameNode 19672 DataNode19887 JobTracker转载 2015-10-28 10:06:53 · 1524 阅读 · 0 评论 -
hadoop2.7.1文基础操作测试
配置好上篇文章的hadoop集群之后,接下来进行一些基础的操作一下操作在hadoop-2.7.1文件夹中进行格式化hdfs文件系统 hadoop namenode -format进入sbin中启动hadoop,直接start-all了,对于我这种初学者来说简单粗暴 cd sbin/start-all.sh创建个目录:hadoop fs -mkdir -p /data/原创 2015-10-30 11:36:22 · 705 阅读 · 0 评论 -
hadoop2.7.1在ubuntu上的集群配置
一、节点分配三部在VM上建立的Ubuntu虚拟机,上网方式用的NAT,使用Hadoop的用户名都叫hadoop,主机名、ip配置如下主机名IPmaster192.168.226.160slave1192.168.226.161slave2192.168.226.162二、预装软件我当然不是一台一台配原创 2015-10-30 11:12:52 · 1102 阅读 · 0 评论 -
HIVE获取最新分区的数据的方法
场景以dt(日期)分区的hive表,获取最新一天的分区数据 如果是普通的SQL的话,下面这样写就可以了,但是hive中这种写法会报错SELECT*FROM xxxWHERE dt=(SELECTmax(dt)FROMxxx)解决方法在hive里,要用alias才能获取分区中的数据,而且查询条件(WHRER)中还必须带有分区字段(dt),否则会报错SELECTb.item as `it原创 2017-09-06 02:04:27 · 30807 阅读 · 1 评论