
hive
豹先生_MR-BAO
做中国云计算导航人~~~~~
展开
-
Bigtable探秘 Google分布式数据存储系统DFS(1)
摘要Bigtable是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:通常是分布在数千台普通服务器上的PB级的数据。Google 的很多项目使用Bigtable存储数据,包括Web索引、Google Earth、Google Finance。这些应用对Bigta转载 2011-09-22 11:12:51 · 1172 阅读 · 0 评论 -
Hive 随谈(二)– Hive 结构
Hive 体系结构Hive 的结构如图所示,主要分为以下几个部分:用户接口,包括 CLI,Client,WUI。元数据存储,通常是存储在关系数据库如 mysql, derby 中。解释器、编译器、优化器、执行器。Hadoop:用 HDFS 进行存储,利用 MapReduce 进行计算。用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是 CLI,Cli转载 2013-12-02 10:51:55 · 1000 阅读 · 0 评论 -
Hive源码解析之词法分析器parser
Hive源码解析系列–词法分析器parser接着上次的Hive解析走,上次分享的 一直在忙hive sql优化,所以对sql语法解析关注的多一些,词法解析器+语法解析器。这次说说基于hive源码说说的词法解析器,而对于分析重点还是正常SQL解析,而非ddl,set 等。词法分析器 parser在是一个简单的类图:ParserDriver是词法解析的开始, hive源码解转载 2013-09-26 09:05:32 · 3115 阅读 · 0 评论 -
hive 源码解析之代码整体结构
CliDriver初始化过程CliDriver.main 是 Cli 的入口(1) 解析(Parse)args,放入cmdLine,处理 –hiveconf var=val 用于增加或者覆盖hive/hadoop配置,设置到System的属性中。(2) 配置log4j,加载hive-log4j.properties里的配置信息。(3)创建一个HiveConf,设转载 2013-09-26 09:00:16 · 2733 阅读 · 0 评论 -
hive源码解析之运行原理
hive就是一个将sql语句转化为MR工具hive的工作原理:1、使用antlr定义sql语法,(详细见hive.g),由antlr工具将hive.g编译为两个java文件:HiveLexer.java HiveParser.java,可以将输入的sql解析为ast树2、org.apache.hadoop.hive.ql.Driver对ast树进行初步的解析(combile),调转载 2013-09-26 09:01:57 · 2756 阅读 · 0 评论 -
hive源码解析之语法解析
Hive语法解析器是根据词法分析 > 生成的语法树为基础,进行语法解析。根据语法token的情况实现了五个具体的语法解析器。+在你生成语法器的时候, SemanticAnalyzerFactory分别针对不同的情况生成对应的某个语法器,如下SemanticAnalyzerFactory类:+ 现在有五个语法解析器 analyzer继承了BaseS转载 2013-09-26 09:04:33 · 2104 阅读 · 0 评论 -
hive 三种启动方式及用途,关注通过jdbc连接的启动
1, hive 命令行模式,直接输入/hive/bin/hive的执行程序,或者输入 hive –service cli 用于linux平台命令行查询,查询语句基本跟mysql查询语句类似 2, hive web界面的启动方式,hive –service hwi 用于通过浏览器来访问hive,感觉没多大用途3, hive 远程服务 (原创 2011-08-31 09:59:06 · 8782 阅读 · 0 评论 -
hive优化总结
1.当hive执行join内存溢出时,可以修改hive的配置文件hive-site.xml,增大内存,如下: mapred.child.java.opts -Xmx 1024m2.hive默认建表时的路径也可以在hive-site.xml里配置,如下: hive.转载 2011-10-09 18:05:06 · 842 阅读 · 0 评论 -
六度空间理论算法及在好友推荐中应用(加批)
【六度空间算法理论简介】有一个数学领域的猜想,名为Six Degrees of Separation,中文翻译包括以下几种: 六度分割理论或小世界理论等。 理论指出:你和任何一个陌生人之间所间隔的人不会超过六个,也就是说,最多通过六个人你就能够认识任何一个陌生人。转载 2011-10-14 11:48:31 · 3522 阅读 · 0 评论 -
hive数据分析实战及执行效率执行策略分析
1,首先在hadoop集群中启动jobtrakker2,hive以提供远程服务模式启动nohup hive –service hiveserver & 3,用户关系表user_relation字段 uid1, uid2样例数据 1原创 2011-10-14 12:27:11 · 1864 阅读 · 0 评论 -
HTablePool 连接池源码分析
public class HTablePool { //存放多个htable的ConcurrentMap,这里用ConcurrentMap是为了线程安全 //LinkedList放的是同一hatable多个对象的链表 private final ConcurrentM原创 2011-09-28 19:53:20 · 2503 阅读 · 1 评论 -
Hbase利用HTablePool实现Htable连接池
之前通过直接new Htable方式对hbase表进行操作,会经常抛出NIOServerCnxn: Too many connections from /10.202.50.79 - max is 60 异常解决最后经过分析为Htable创建过多,而每创建一个htable原创 2011-09-28 19:28:49 · 7331 阅读 · 2 评论 -
java 通过jdbc驱动连接hive操作实例
1,hive首先要起动远程服务接口,命令:nohup hive –service hiveserver & 2,java工程中导入相应的需求jar包,列表如下:antlr-runtime-3.0.1.jarhive-exec-0.7.1.jarhive-原创 2011-08-31 13:23:03 · 11536 阅读 · 2 评论 -
Bigtable探秘 Google分布式数据存储系统DFS(2)
5 介绍Bigtable包括了三个主要的组件:链接到客户程序中的库、一个Master服务器和多个Tablet服务器。针对系统工作负载的变化情 况,BigTable可以动态的向集群中添加(或者删除)Tablet服务器。Master服务器主要负责以下工作:为Table转载 2011-09-22 11:14:46 · 1692 阅读 · 0 评论 -
Hive HQL优化
使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑。但是某些情况下,因为不熟悉数据特性,或没有遵循Hive的优化约定,Hive计算任务会变得非常低效,甚至无法得到结果。一个”好”的Hive程序仍然需要对Hive运行机制有深入的了解。有一些大家比较熟悉的优化约定包括:Join中需要将大表写在靠右的位置;尽量使用UDF而不是transfrom……诸如此类。下面讨论5个性能和逻辑相关转载 2013-12-02 14:40:27 · 1673 阅读 · 0 评论