
Hadoop Hive
文章平均质量分 93
Hive相关技术总结和经验分享
╭⌒若隐_RowYet——大数据
小时候,看宫崎骏的动画,不记得是哪一部,只记得那个小孩奔跑着说:“我长大了要去布宜诺斯艾利斯,寻找回忆的地方”;
从那时起,我便把布宜诺斯艾利斯列为毕生奋斗的目标,去那里寻找我失落的过去。不知从何时起,圣华塔尼欧取代了布宜诺斯艾利斯。
当回忆渐渐失去温度,不能再温暖我心,取而代之的是伤害,我选择信仰圣华塔尼欧,寻找新生。
展开
-
项目实战——参数配置化Spark将Hive表的数据写入需要用户名密码认证的ElasticSearch(Java版本)
如何优雅的将Hive的数据写入ES,每次新增一张表是否新增一个配置文件就能实现呢?当然可以,本篇文章就带你走进这个优雅的ETL Jar包;原创 2022-03-03 17:49:41 · 3406 阅读 · 0 评论 -
Hive从入门到放弃——Hive与其他技术的结合之spark on hive(十七)
背 景原创 2020-12-14 10:45:18 · 435 阅读 · 0 评论 -
项目实战——Spark将Hive表的数据写入需要用户名密码认证的ElasticSearch(Java版本)
目 录项目实战——将Hive表的数据直接导入ElasticSearch 此篇文章不用写代码,简单粗暴,但是相对没有那么灵活;底层采用MapReduce计算框架,导入速度相对较慢!项目实战——Spark将Hive表的数据写入ElasticSearch(Java版本) 此篇文章需要Java代码,实现功能和篇幅类似,直接Java一站式解决Hive内用Spark取数,新建ES索引,灌入数据,并且采用ES别名机制,实现ES数据更新的无缝更新,底层采用Spark计算框架,导入速度相对文章1的做法较快的多!原创 2020-11-30 18:03:34 · 2514 阅读 · 0 评论 -
项目实战——钉钉报警校验ElasticSearch和Hive数据仓库内的数据质量(Java版本)
目 录项目实战——将Hive表的数据直接导入ElasticSearch 此篇文章不用写代码,简单粗暴,但是相对没有那么灵活;底层采用MapReduce计算框架,导入速度相对较慢!项目实战——Spark将Hive表的数据写入ElasticSearch(Java版本) 此篇文章需要Java代码,实现功能和篇幅类似,直接Java一站式解决Hive内用Spark取数,新建ES索引,灌入数据,并且采用ES别名机制,实现ES数据更新的无缝更新,底层采用Spark计算框架,导入速度相对文章1的做法较快的多!原创 2020-10-24 22:54:31 · 994 阅读 · 0 评论 -
项目实战——Spark将Hive表的数据写入ElasticSearch(Java版本)
目 录项目实战——将Hive表的数据直接导入ElasticSearch 此篇文章不用写代码,简单粗暴,但是相对没有那么灵活;底层采用MapReduce计算框架,导入速度相对较慢!项目实战——Spark将Hive表的数据写入ElasticSearch(Java版本) 此篇文章需要Java代码,实现功能和篇幅类似,直接Java一站式解决Hive内用Spark取数,新建ES索引,灌入数据,并且采用ES别名机制,实现ES数据更新的无缝更新,底层采用Spark计算框架,导入速度相对文章1的做法较快的多!原创 2020-10-24 21:31:12 · 3072 阅读 · 7 评论 -
项目实战——将Hive表的数据直接导入ElasticSearch
背 景 应业务需求,要实现针对某产品的挑选搜索功能,决定采用ElasticSearch(以下简称ES)作为后端搜索引擎服务,然后将符合条件的结果在ES搜索出来反馈给前端展示,但是我的基础数据都是存在数据仓库的Hive表内,这就面临一个问题,如何将Hive表的数据直接导入到ES内; 查阅官网,确定这个步骤想法的可行性,官网的例子相对简单,没涉及到复杂数据类型以及嵌套结构,我也是结合官网例子,再根据ES的特性和走了很多弯路才成功了,最后直接单纯用SQL语句就搞定了,没有写任何Java/python代码就原创 2020-08-18 20:29:44 · 4985 阅读 · 14 评论 -
Hive从入门到放弃——Hive优化实践(十六)
背 景原创 2020-08-02 09:16:42 · 386 阅读 · 0 评论 -
Hive从入门到放弃——Hive的shell操作及参数配置(十七)
背 景原创 2020-07-30 11:31:09 · 723 阅读 · 0 评论 -
Hive从入门到放弃——玩一玩Hive的数据分析开窗函数(十五)
背 景原创 2020-07-29 16:16:39 · 563 阅读 · 0 评论 -
Hive从入门到放弃——Hive 用户自定义函数之UDF简介(十二)
背 景原创 2020-07-28 11:22:36 · 685 阅读 · 0 评论 -
Hive从入门到放弃——Hive 用户内置函数简介(十一)
背 景原创 2020-07-16 11:28:20 · 1120 阅读 · 0 评论 -
Hive从入门到放弃——经典面试题:ORDER BY, SORT BY, DISTRIBUTE BY, CLUSTER BY的区别(十)
背 景原创 2020-07-03 18:00:20 · 591 阅读 · 1 评论 -
Hive从入门到放弃——Hive SQL执行原理图解(九)
背 景 select语句执行图解 group by语句执行图解 join语句执行图解原创 2020-07-02 20:56:40 · 1043 阅读 · 0 评论 -
Hive从入门到放弃——Hive表DML的艺术性(八)
背 景 Hive的DML其实和MySQL的差别不多,当然局限于select层面,基本的select操作 jion操作 insert操作 load操作原创 2020-06-21 14:19:05 · 476 阅读 · 0 评论 -
Hive从入门到放弃——Hive中文乱码的问题(七)
背 景 实际开发时,建表的时候,身为中国人,为了方便一般都会给字段加上中文的`comment,来方便记录字段的中文意思,如下sql建表语句;CREATE EXTERNAL TABLE ods_tbb_movie(userID int comment '用户ID',movieID int comment '电影ID',rating int comment '电影评分',timestamped bigint comment '评分时间戳',movieName string comment '电影原创 2020-06-04 18:45:59 · 2771 阅读 · 0 评论 -
Hive从入门到放弃——Hive元数据简介(六)
元数据概念 在之前安装Hive的博客Hive从入门到放弃——Hive安装和基本使用(二),提到了有一步骤是初始化Hive,其实就是把Hive的元数据表创建部署在一个叫hive的MySQL库里,原创 2020-06-04 16:40:31 · 1304 阅读 · 1 评论 -
Hive从入门到放弃——HiveQL表级别DDL设计的艺术性(五)
HiveQL数据库中的表DDL操作 聊完了数据库的基本操作,我们再来聊聊Hive内表的操作。创建表 官方推荐建表的结构,莫慌,我们一点点来看看这些关键字的用法,然后自己建几个样例,就很好理解了。 以下内容的[]符号为可选关键字,|符号二选一关键字;CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name -- (Note: TEMPORARY available in Hive 0.14.0 and原创 2020-05-23 21:54:09 · 856 阅读 · 1 评论 -
Hive从入门到放弃——HiveQL数据库级别DDL设计的艺术性(四)
Hive从入门到放弃——Hive DDL设计的艺术性(四)原创 2020-05-22 09:41:01 · 470 阅读 · 0 评论 -
Hadoop集群数据分发——pyspark导出Hive集群数据及python写入mysql或sql server
更新中……请稍等原创 2020-04-17 19:26:43 · 1143 阅读 · 0 评论 -
Hadoop集群数据分发——pyspark导出及python写入excel文件或csv文件及邮件附件发送
准 备介 绍实 战原创 2020-03-30 20:11:49 · 3185 阅读 · 0 评论 -
Hive从入门到放弃——Hive常用连接工具推荐(三)
准 备 介 绍实 战原创 2020-01-03 11:56:06 · 8769 阅读 · 0 评论 -
Hive从入门到放弃——Hive安装和基本使用(二)
Hive下载 这里使用Hive 2.3.5版本为例子: 官网下载地址:http://archive.apache.org/dist/hive/hive-2.3.5 一般是下载编译好的bin.tar.gz包:apache-hive-2.3.5-bin.tar.gz,如图1 图1 下载tar包选择安装metadata库 为了配合Hadoop家族开源的精神,这么metadata就选.........原创 2019-11-10 11:38:58 · 1230 阅读 · 0 评论 -
Hive从入门到放弃——Hive背景和基础架构介绍(一)
Hive背景 Hadoop家族虽然MapReduce提供了抽象类或者 编程接口框架,使得开发人员能够按照模板式的开发代码就能完成大数据的离线计算,但是对于技能点只加到了sql语句的分析师,数据开发工程师了来说,需要Java或者Python编码就显得不那么友好了,于是Hive就来了,Hive是由FaceBook开发并贡献给Hadoop社区的,目前也深受国内各大BAT的喜爱,也说是很有前景的,图1...原创 2019-11-09 22:55:53 · 660 阅读 · 0 评论