
Hive
文章平均质量分 81
Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。
Michael阿明
两个孩子的父亲,8年机械工程师,已转行互联网做算法,一起继续加油!高举智慧,她就使你高升;怀抱智慧,她就使你尊荣。-- 箴言(4:8)
展开
-
hive性能调优 读书笔记 - 问题排查、调优、数据处理模式
阶段,map 任务读取 AB两个表的数据,按连接条件发往相同的 reduce,在 reduce 中计算合并的结果。先读取小表A,构建其 hash 表,在读取B表,与之前的哈希表进行数据匹配。hive 2.3 以后可用,向量化执行,提高数据处理性能。以上两个 sql 的效果是等效的,执行计划一致。a 左连接 b,过滤条件是针对左表 a,完全。a 左连接 b,过滤条件是针对右表 b,b表。例如,求 sum,max, min。上面描述的是计算引擎的执行逻辑。了指定分区,a 表需要全表扫描。形式,只读取了表一次。原创 2023-03-11 22:50:55 · 732 阅读 · 0 评论 -
hive性能调优 读书笔记 - 调优多样性(改写sql、数据块大小、格式、分区、分桶)
再改写sql,将上面的 union 删掉,分别进行两次计算,看似少了 union, 会节省时间?(比上面的稍微快点,不同的环境比较的结果会有差异,跟书上的不一致)最后 hive 调优跟 hive 自身的迭代也有差异,需要注意。1个job,306s,比上面 390s 提升了 21.5%以下在一个job中完成 min,max 的查询。文件数量不一样,500个小文件 和 1个大文件。共有 10 个分区,每个分区下有16个文件。共2个job,397s,不比上面的写法快。单个大文件的执行耗时。5个job,390s。原创 2023-02-23 20:04:46 · 775 阅读 · 1 评论 -
docker-compose部署hive、kafka服务
放在 docker-hive路径下,cmd输入 docker-compose up -d,会部署hive相关的容器。然后需要在容器内部署写hive的服务,发现镜像的 Python 版本是3.4 的,需要升级。填写openssl的路径,还有取消5行注释,如上图所示。这一步的目的是,后面可以直接用自己的镜像,整了3天,做个记录,能帮到你少走弯路就好。更改 yml 配置,使用自己打包好的镜像。docker kafka 用的是。进行换源,加速后续下载,安装。把上面做好的镜像打包为。注意需要配置 ssl,原创 2022-10-23 00:15:25 · 2544 阅读 · 1 评论 -
HiveQL:查询
文章目录1. select from1.1 正则表达式指定列1.2 使用列值计算1.3 使用函数1.4 limit 限制返回行数1.5 别名 as name1.6 case when then 语句2. where 语句3. JOIN 优化4. 抽样查询5. union all学自《hive编程指南》1. select fromhive (default)> create table employees( > name string,原创 2021-04-11 22:12:49 · 232 阅读 · 0 评论 -
HiveQL: 数据操作
文章目录1. 向管理表中装载数据2. 通过查询语句向表中插入数据3. 动态分区插入学习自《Hive编程指南》1. 向管理表中装载数据hive (default)> load data local inpath "/home/hadoop/workspace/student.txt" > overwrite into table student1;分区表可以跟 partition (key1 = v1, key2 = v2, …)有 local :复制本地路原创 2021-04-08 23:50:49 · 664 阅读 · 1 评论 -
HiveQL: 数据定义
文章目录1. Hive 数据库2. 修改数据库3. 创建表3.1 管理表3.2 外部表4. 分区表、管理表5. 删除表6. 修改表1. Hive 数据库create database DBname;hive (default)> show databases;OKdefaulthiveTime taken: 0.023 seconds, Fetched: 2 row(s)hive (default)> create database students;OKTime tak原创 2021-04-06 23:56:00 · 401 阅读 · 0 评论 -
数据仓库 Hive(内含大数据镜像下载)
文章目录1. 特点2. Hive 体系架构3. 安装 Hive3.1 安装 MySQL3.2 安装 Hive3.3 配置 Hive安装没成功:直接用现成的镜像大数据Linux实验环境虚拟机镜像文件 http://dblab.xmu.edu.cn/blog/1645-2/cloudera-quickstart-vm-集成了大数据平台的虚拟机镜像1. 特点查询语言与 SQL 接近并行执行使用 HDFS 存储支持多种数据格式不支持数据更新不支持索引执行延迟高(不适合在线数据查询)可扩展性原创 2021-03-29 23:24:33 · 1947 阅读 · 0 评论