
Hadoop
文章平均质量分 66
mustbesomebody
总有人会成功 为什么不能是自己???
展开
-
Hadoop——上传本地文件到hdfs
import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;public cla原创 2015-04-05 21:19:59 · 2132 阅读 · 0 评论 -
Hadoop 2.x 单表关联
需求是:从下面的文本文件中,得到grandchild--grandparent的关系child parentTom JackTom LilyJack LileiLilei SomeLucy Somehuangpeng zhouaiqiongzhouaiqiong原创 2016-10-06 13:16:17 · 424 阅读 · 0 评论 -
hive 配置 mysql时的问题(Relative path in absolute URI: ${system:java.io.tmpdir%7D/$%7Bsystem:user.name%7D
这篇文章解决了问题,转载自:http://blog.youkuaiyun.com/lanchunhui/article/details/50858092因为 Hive 的映射工具——metastore,默认存放在 derby 中,而derby数据库的一大缺陷在于其不支持并发访问(早期的hive是这样)。当我们使用MySQL 作为其远程仓库时,自然需要修改相关配置文件。(其实所谓的默认配置,即是配置转载 2016-10-31 00:33:03 · 530 阅读 · 0 评论 -
Hive metastore database is not initialized. Please use schematool(...) to create the schema.
同样遇见问题,这篇文章解决了 http://blog.youkuaiyun.com/xiaoshunzi111/article/details/51906049一:问题:Exception in thread “main” java.lang.RuntimeException: Hive metastore database is not initialized. Please use schem转载 2016-10-31 00:34:34 · 695 阅读 · 0 评论 -
HIVE 2.1.0安装
环境:CentOS7Hadoop-2.6.4,配置两个节点:master、slave1mysql-server过程:下载、解压hive-2.1.0到/usr/hadoop-2.6.4/thirdparty$ tar zxvf apache-hive-2.1.0-bin.tar.gz设置 Hive环境变量编辑 /etc/pr转载 2016-11-13 16:23:39 · 431 阅读 · 0 评论 -
Hbase Java编程基本操作
import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoop.原创 2016-12-18 23:01:13 · 494 阅读 · 0 评论 -
MR之wc数据写入Hbase
import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfiguration;原创 2016-12-19 01:21:13 · 656 阅读 · 0 评论 -
Hive Join的几种方式
下面实验几种hive中常用到的join操作首先创建两个文件用于导入表中hadoop@master:~/17$ cat data11,a2,b3,c4,d5,e8,u9,rhadoop@master:~/17$ cat data21,aa2,gg7,www19,ee实验步骤:1.创建hive表create table a(id int, na原创 2017-03-18 15:33:35 · 1715 阅读 · 0 评论 -
开启hive数据表的update delete
转载自:http://blog.youkuaiyun.com/suijiarui/article/details/51174406之前介绍了Hive的安装,hive安装后可以修改建表及查询操作,在执行修改操作时遇到了如下问题。[html] view plain copy update student set name='zhangsan' whe转载 2017-03-18 18:02:01 · 841 阅读 · 0 评论 -
Hive UDF开发
======================1 转换小写==========================hive> select * from student;OK2 BEBETTER1 HUANGPENGTime taken: 0.149 seconds, Fetched: 2 row(s)hive> desc student;OKid i原创 2017-03-19 01:45:20 · 450 阅读 · 0 评论 -
Hadoop 2.x 数据排序
思路:文本文件也是一行一个单词这样的,那排序的不同在于,默认的shuffer阶段的排序是根据map阶段传入的key值进行排序,整形那就升序排序,字符串就按位比较acsll码大小,那这样在这里是不行的,因为每个reduce上进行的是自己的排序,而无法保证全局上的排序。所以在分配给reduce的前,需要自定义partition类,将同一个数据区间的key传入到同一个reduce中,那么每个reduce原创 2016-10-06 00:25:08 · 396 阅读 · 0 评论 -
Hadoop2.x 数据去重
数据是这样的文本文件,一行为一个单词如: words.txtaaaaabxxxsvwords2.txt:aabbaaabbbdddddd代码和单词计数没有太大差别,例如map阶段传入的key为行标,value为这一行所对应的单词, 只要将单词作为key传入下一步骤(shuffle阶段,此阶段默认做了数据排序,分类,combiler的工作), value可以随原创 2016-10-06 00:13:30 · 457 阅读 · 0 评论 -
Hadoop 创建文件并写入数据
import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;pu原创 2015-04-05 19:09:25 · 3504 阅读 · 0 评论 -
Hadoop——重命名文件
import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;public class HDFS_rename { public static void mai原创 2015-04-06 10:45:09 · 6713 阅读 · 1 评论 -
Hadoop——创建文件夹
import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;public class HDFSmkdir { public static void mai原创 2015-04-05 18:44:30 · 1803 阅读 · 0 评论 -
Hadoop——判断hdfs上文件是否存在
System.out.println(fs.exists(new Path("/usr/hadoop")));原创 2015-04-06 11:02:45 · 1884 阅读 · 0 评论 -
Hadoop——查找摸个文件在HDFS集群中的位置
import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.BlockLocation;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.fs.FileSystem;imp原创 2015-04-06 11:26:17 · 1373 阅读 · 0 评论 -
Hadoopo——删除文件
import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;public class HDFS_delete { public static void mai原创 2015-04-06 10:59:40 · 463 阅读 · 0 评论 -
Hadoop——获取所有主机节点
import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.hdfs.DistributedFileSystem;import org.apache.hadoop.hdfs.pro原创 2015-04-06 11:43:57 · 1857 阅读 · 0 评论 -
hive启动报错 java.net.URISyntaxException: Relative path in absolute URI: ${system:java.io.tmpdir%7D/$%7B
今天遇见的hive启动问题,这篇文章解决了,非常感谢!原文地址:http://blog.youkuaiyun.com/fhg12225/article/details/45817477启动hive报错:[root@master conf]# hiveLogging initialized using configuration in file:/usr/local/hi转载 2016-09-29 00:44:15 · 3570 阅读 · 0 评论 -
Hadoop 2.x 多表关联
需求是将这样的两个文件关联起来文件address:addressID addressname1 Beijing2 Guangzhou3 Shenzhen4 Xian文件factory:factoryname addresseIDBejing Red Star 1Shenzhen Thunder 3Guangzhou Honda 2Beijing Rising 1G原创 2016-10-16 23:36:59 · 495 阅读 · 0 评论 -
Hadoop WordCount
版本一:默认使用Split类方法去做,这样做就是默认一行一行去解析,map阶段 key传入的为行标,value传入的为这一行的值这种情况只适合于有超多行,但每一行不太长的情况下面贴代码:文本文件words.txtaaa bbbccc ddd eee fff文本文件words2.txtaabb aaaa aaaccc casdasd 11 23 11 222 3原创 2016-10-04 16:04:03 · 310 阅读 · 0 评论 -
Hadoop 2.x完全分布式安装
最近将虚拟机上的hadoop1.x删除了,装上了2.x,这是安装教程 转载自:http://www.tuicool.com/articles/aIzUV3一、环境我的是在Linux环境下进行安装的。对于想在windows系统上学习的同学,可以采用虚拟机方式或通过cygwin模拟linux环境方式进行学习。现在有三台服务器,分配如下:10.0.1.10原创 2016-10-04 17:41:35 · 425 阅读 · 0 评论 -
启动hadoop 2.6遇到的datanode启动不了
查看日志如下:2014-12-22 12:08:27,264 INFO org.mortbay.log: Started HttpServer2$SelectChannelConnectorWithSafeStartup@0.0.0.0:500752014-12-22 12:08:27,692 INFO org.apache.hadoop.hdfs.server.datanode.Da转载 2017-10-29 14:50:13 · 522 阅读 · 0 评论