
hadoop学习
文章平均质量分 80
phoebe_IT
开始记录自己成长的点滴,以防自己回首时,发现自己什么都没有留下来。
展开
-
Hadoop集群链接_Eclipse开发环境:成功运行mapreduce所遇问题
转载自:http://www.cnblogs.com/xia520pi/archive/2012/05/20/2510723.html这个哥们讲解的非常详细!但是在搭建时,我的不可能和作者一样顺利遇到了各种奇葩问题,最重要是每个人的都不一样,先把我自己遇到的贴出来吧 一般情况下链接上集群很容易,可以看到并创建浏览hdfs上的文件,但是你想成功运行mapreduce很麻烦,我反正遇到了原创 2015-12-17 18:37:07 · 1060 阅读 · 0 评论 -
表篇分区
转载自:http://blackproof.iteye.com/blog/17979373.表篇分区不用于关系数据库partition中的字段可以不再table中,但是partition中的字段可以如同table中column一样使用这样可以加快查询速度,因为只用查找一个目下文件就可以了这里分区分为单分区partition一个column,多分区partition多个column单转载 2016-04-12 15:26:12 · 305 阅读 · 0 评论 -
hive表信息查询:查看表结构、表操作等
转自:http://www.aboutyun.com/forum.php?mod=viewthread&tid=8590&highlight=hive问题导读:1.如何查看hive表结构?2.如何查看表结构信息?3.如何查看分区信息?4.哪个命令可以模糊搜索表1.hive模糊搜索表 show tables like '*name*';2.查转载 2016-04-12 15:33:06 · 1189 阅读 · 0 评论 -
Sqoop导入关系数据库到Hive
Sqoop 是 apache 下用于 RDBMS 和 HDFS 互相导数据的工具。本文以 mysql 数据库为例,实现关系数据库导入到 hdfs 和 hive。1. 安装 Sqoop使用 rpm 安装即可。yum install sqoop sqoop-metastore -y安装完之后需要下载 mysql jar 包到 sqoop 的 lib 目录。转载 2016-04-12 15:34:51 · 351 阅读 · 0 评论 -
hive学习总结(9)—数据库创建、表创建、加载数据
转载自:http://gaoxianwei.iteye.com/blog/2160558--创建数据库create database if not exists sopdmcomment ‘this is test database’with dbproperties(‘creator’=’gxw’,’date’=’2014-11-12’) --数据库键值对属性信息转载 2016-04-12 17:07:35 · 355 阅读 · 0 评论 -
数据文件数据加载到hive表
转载自:http://blog.chinaunix.net/uid-77311-id-4581156.html本地文件加载到hive表1.在hxl数据库下创建表hive> create table tb_emp_info > (id int, > name string, > age int, > tel string) > R转载 2016-04-13 15:02:11 · 1897 阅读 · 0 评论 -
hive 的表操作问题 hive中简单介绍分区表
导入数据时需要动态分区,此时就需要对hive设置#设置参数开启dynamic partition(动态分区)hive> set hive.exec.dynamic.partition.mode=nonstrict;hive> set hive.exec.dynamic.partition=true;转载 2016-04-13 16:48:49 · 461 阅读 · 0 评论 -
导入作业数据集total.csv到Hive中,用日期做为分区表的分区ID
环境:hadoop1.2.1集群Hive1.2.0mysql serverRedhat-6.6 Server.x86_641 导入作业数据集total.csv到Hive中,用日期做为分区表的分区ID。要求有描述型文字,Hive脚本和截图。回购表数据:tradedate:交易日期tradetime:交易时间securityid:股票IDbidpx转载 2016-04-13 16:56:58 · 2371 阅读 · 0 评论 -
Hive之分区(Partitions)和桶(Buckets)
转载自:http://www.aahyhaa.com/archives/316hive引入partition和bucket的概念,中文翻译分别为分区和桶(我觉的不是很合适,但是网上基本都是这么翻译,暂时用这个吧),这两个概念都是把数据划分成块,分区是粗粒度的划分桶是细粒度的划分,这样做为了可以让查询发生在小范围的数据上以提高效率。首先介绍分区的概念,还是先来个例子看下如果创建分区表转载 2016-04-14 14:31:32 · 750 阅读 · 0 评论