
大数据技术-Hive
HuFeiHu-Blog
知无涯者,虚心若愚,求知若饥,勇者天佑!
展开
-
数据仓库--数据仓库概述
阅读目录前言数据库的"分家"操作型数据库 VS 分析型数据库数据仓库(data warehouse)定义数据仓库组件数据集市(data mart)数据仓库开发流程小结回到顶部前言 阅读本文前,请先回答下面两个问题: 1. 数据库和数据仓库有什么区别? 2. 某大公司Hadoop Hive里的关系表不完全满足完整/参照性约束,转载 2017-08-01 15:16:10 · 749 阅读 · 0 评论 -
大数据真实案例:Spark在美团的实践
美团是数据驱动的互联网服务,用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志,这些日志数据将被汇总处理、分析、挖掘与学习,为美团的各种推荐、搜索系统甚至公司战略目标制定提供数据支持。大数据处理渗透到了美团各业务线的各种应用场景,选择合适、高效的数据处理引擎能够大大提高数据生产的效率,进而间接或直接提升相关团队的工作效率。美团最初的数据处理以Hive SQL为主,底层计算引擎为MapRe...转载 2018-03-11 11:01:27 · 12870 阅读 · 2 评论 -
Hive 12、Hive优化
DML主要是对Hive 表中的数据进行操作的(增 删 改),但是由于Hadoop的特性,所以单条的修改、删除,其性能会非常的低所以不支持进行级操作; 主要说明一下最常用的批量插入数据较为常用的方法: 1、从文件中加载数据语法:LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTIT转载 2017-08-04 09:15:29 · 276 阅读 · 0 评论 -
Hive 5、Hive 的数据类型 和 DDL Data Definition Language) Hive DML(Data Manipulation Language)
官方帮助文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDLHive的数据类型-- 扩展数据类型data_type : primitive_type | array_type | map_type | struct_type | union_type -- (Note:转载 2017-08-04 09:14:54 · 427 阅读 · 0 评论 -
Hive 8、Hive2 beeline 和 Hive jdbc,Hive的UDF、UDAF、UDTF
1、Hive2 beeline Beeline 要与HiveServer2配合使用,支持嵌入模式和远程模式启动beeline打开两个Shell窗口,一个启动Hive2 一个beeline连接hive2#启动HiverServer2 , ./bin/hiveserver2 [root@node5 ~]# hiveserver216/02/23 22:55:25 WARN co转载 2017-08-04 09:16:34 · 1617 阅读 · 0 评论 -
Hive 内置函数
原文见:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF1.内置运算符1.1关系运算符运算符类型说明A = B 所有原始类型 如果A与B相等,转载 2017-08-04 09:17:48 · 316 阅读 · 0 评论 -
Hive 9、Hive 在表中添加正则匹配
在Hive中还有一项比较好用的功能,也是非常重要的功能:在建表的时候可以不指定表的行、字段、列的分隔方式,通过给表指定一段正则表达式,让Hive自动去匹配;1、创建表 CREATE TABLE apachelog ( dates STRING, times STRING, types STRING, info STRING)ROW FORMAT SERDE 'or转载 2017-08-04 09:17:04 · 840 阅读 · 0 评论 -
Hive 7、Hive 的内表、外表、分区
1、Hive的内表Hive 的内表,就是正常创建的表,在 http://www.cnblogs.com/raphael5200/p/5208437.html 中已经提到; 2、Hive的外表创建Hive 的外表,需要使用关键字 External:CREATE EXTERNAL TABLE [IF NOT EXISTS] [db_name.]table_name转载 2017-08-04 09:16:04 · 850 阅读 · 0 评论 -
Hive 4、Hive 的安装配置(远端MyMql模式)
1.remote一体这种存储方式需要在远端服务器运行一个mysql服务器,并且需要在Hive服务器启动meta服务。这里用mysql的测试服务器,ip位192.168.1.214,新建hive_remote数据库,字符集位latine1; $ vim hive-site.xml configuration> property> name>转载 2017-08-04 09:14:01 · 279 阅读 · 0 评论 -
Hive 3、Hive 的安装配置(本地derby模式)
这种方式是最简单的存储方式,只需要在hive-site.xml做如下配置便可; $ vim hive-site.xml configuration> property> name>javax.jdo.option.ConnectionURLname> value>jdbc:derby:;databaseName=metastore_db;转载 2017-08-04 09:13:33 · 843 阅读 · 0 评论 -
Hive 2、Hive 的安装配置(本地MySql模式)
一、前提条件 安装了Zookeeper、Hadoop HDFS HA 安装方法: http://www.cnblogs.com/raphael5200/p/5154325.html二、安装Mysql 因为使用量多的是单用户数据库模式,并且数据库使用最多的是mysql 所以在这里选择mysql数据库;$ yum install mysql-server$ service转载 2017-08-04 09:13:07 · 337 阅读 · 0 评论 -
Hive 1、什么是Hive,Hive有什么用
一、什么是Hive Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 red转载 2017-08-04 09:12:12 · 650 阅读 · 0 评论 -
Impala架构和工作原理
原文地址:http://blog.youkuaiyun.com/niuxinzan/article/details/239989011. Impala架构 Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具(实时SQL查询引擎Impala),Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库转载 2017-08-03 20:12:34 · 1425 阅读 · 0 评论 -
SQL数据分析概览——Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto+druid
根据 O’Reilly 2016年数据科学薪资调查显示,SQL 是数据科学领域使用最广泛的语言。大部分项目都需要一些SQL 操作,甚至有一些只需要SQL。本文涵盖了6个开源领导者:Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto,还加上Calcite、Kylin、Phoenix、Tajo 和Trafodion。转载 2017-08-03 16:58:23 · 1363 阅读 · 0 评论 -
数据仓库--数据仓库系统的实现与使用(含OLAP重点讲解)
第三篇:数据仓库系统的实现与使用(含OLAP重点讲解)阅读目录前言创建数据仓库ETL:抽取、转换、加载OLAP/BI工具数据立方体(Data Cube)OLAP的架构模式小结回到顶部前言 上一篇重点讲解了数据仓库建模,它是数据仓库开发中最核心的部分。然而完整的数据仓库系统还会涉及其他一些组件的开发,其中最主要的是ETL工程,在线分析处理工具(O转载 2017-08-01 15:18:37 · 470 阅读 · 0 评论 -
数据仓库--数据仓库与数据集市建模
第二篇:数据仓库与数据集市建模阅读目录前言维度建模的基本概念维度建模的三种模式实例:零售公司销售主题的维度建模更多可能的事实属性经典星座模型缓慢变化维度问题数据仓库建模体系之规范化数据仓库数据仓库建模体系之维度建模数据仓库数据仓库建模体系之独立数据集市三种数据仓库建模体系对比小结回到顶部前言 数据仓库建模包含了几种数据建模技术,除了之前在数据库系列转载 2017-08-01 15:17:30 · 834 阅读 · 0 评论 -
资源list:Github上关于大数据的开源项目、论文等合集
Awesome Big DataA curated list of awesome big data frameworks, resources and other awesomeness. Inspired byawesome-php, awesome-python, awesome-ruby, hadoopecosystemtable & big-data.Your contr...转载 2018-10-15 20:58:31 · 1532 阅读 · 0 评论