
hadoop
dashabiooo
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hadoop
sdfsdfsd :oops:原创 2015-07-21 13:49:37 · 126 阅读 · 0 评论 -
利用SQOOP将数据从数据库导入到HDFS
基本使用 如下面这个shell脚本: #Oracle的连接字符串,其中包含了Oracle的地址,SID,和端口号 CONNECTURL=jdbc:oracle:thin:@20.135.60.21:1521:DWRAC2 #使用的用户名 ORACLENAME=kkaa #使用的密码 ORACLEPAS...原创 2015-07-25 14:10:11 · 1666 阅读 · 0 评论 -
Hadoop调优总结
[size=large]1. 管理员角度主要在四方面进行调优[/size] (1) 硬件选择、 (2)操作系统参数调优、 (3)jvm参数调优、 (4)hadoop参数调优。 [size=large]2.操作系统调优[/size] (1).增大同时打开的文件描述符合网络连接上限。 管理员在启动hadoop集群时,应使用ulimit命令将允许同时打开的文...原创 2015-07-25 14:12:56 · 142 阅读 · 0 评论 -
hive学习—分区、分桶和索引
hive引入partition和bucket的概念,中文翻译分别为分区和桶(我觉的不是很合适,但是网上基本都是这么翻译,暂时用这个吧),这两个概念都是把数据划分成块,分区是粗粒度的划分桶是细粒度的划分,这样做为了可以让查询发生在小范围的数据上以提高效率。 [b]分区的作用:使用分区可以加快数据分片的查询速度。 桶的作用:(1)获得更高效的查询处理效率,桶为表加上了额外的结构。 ...原创 2015-09-07 16:52:55 · 200 阅读 · 0 评论 -
MapReduce 中的两表 join 几种方案简介
[size=large][b] 1. 概述[/b][/size] 在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。 本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。 [size=large...原创 2015-09-07 17:25:12 · 157 阅读 · 0 评论 -
详细总结 Hive VS 传统关系型数据库
重点区别: (1)hive是数据仓库,传统数据库是关系型数据库。 (2)读时模式vs写时模式 在传统数据库里,表的模式是在数据加载的时候强制确定的。如果在数据加载时发现数据不符合模式,则拒绝加载。因为数据是在写入数据库时对照模式进行检查,因此这一设计有时被称为“写时模式”。(它需要读取数据,然后进行“解析”,再进行序列化以数据库内部格式存入磁盘) 另一方面,Hive对数据的验证并不在加...原创 2015-09-07 17:36:21 · 1166 阅读 · 0 评论 -
Hadoop 目前只是“穷人的 ETL”
虽然企业部署Hadoop大数据系统的最终目的是进行“性感”的分析应用,但是大多数企业距离这一目标还很远很远。 根据IDC发布的Hadoop-MapReduce软件生态系统预测报告,Hadoop 市场正在以60%的年复合增长率高速扩张。但是该报告也揭示了一个让人吃惊的事实,作为大数据分析应用的代名词,Hadoop的流行其实与数据分析无关。 实际上大多数采用Hadoop的公司都没有将Hadoop用...原创 2015-09-28 15:25:29 · 227 阅读 · 0 评论 -
使用 Hive 作为传统 ELT 工具的替代
Apache Hive 数据仓库软件有助于查询和管理位于分布式存储中的大型数据集。对于 ETL 而言,Hive 是一个强大的工具,而对于 Hadoop,它既是数据仓库,也是 Hadoop 的数据库。不过,相对于传统的数据库,它是相对缓慢的。它没有提供所有的 SQL 特性,甚至没有提供与传统的数据库相同的数据库特性。但它支持 SQL,它的确像一个数据库那样工作,它让更多的人(即使那些不是程序员的人...原创 2015-09-28 15:32:28 · 637 阅读 · 0 评论