Hive
文章平均质量分 94
jialun0116
浙江工业大学
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
简易版电商推荐系统开发实战Hive
简易版电商推荐系统开发实战数据来源数据转换Pandas->MySQL用Sqoop把数据导入Hive推荐算法Mahout安装itembase协同过滤算法进行推荐实验结果这是从Hive离线计算开发实战中看到小项目改造而来数据来源数据来源于天池大赛中的user_log_format1.csv文件用户行为表 user_infoDataFieldsDefinitionuser_id用户IDitem_id商品IDcat_id商品类别IDseller_i原创 2021-06-09 15:37:07 · 1083 阅读 · 0 评论 -
Hive性能调优实战 总结三
Hive性能调优(三)第7章 Hive数据处理模式过滤模式聚合模式连接模式第8章 YARN日志ResourceManager Web UI 界面JobHistory Web UI 界面第9章 数据存储数据格式数据归档@第10章 发现并优化问题@监控普通表存储的文件的平均大小监控大表不分区的表@监控分区数据不均匀的表@查询表字段的空值率监控当前集群状态@定位性能瓶颈HiveServer2 WebUI 排除大数据组件的问题Job OverView 排查长时间等待调度Map任务读取小任务数据倾斜缓慢的Shuff原创 2021-05-28 00:08:02 · 1608 阅读 · 0 评论 -
Hive性能调优实战 总结二
Hive性能调优(二)第4章 Hive及相关大数据结构Hive工作流程Hive元数据YARN组件YARN执行流程HDFS架构HDFS读写流程hadoop的HA(高可用)实现和zk的作用常见HDFS优化计算引擎第6章 HiveSQL执行计划查看执行计划 eplain简单执行计划解读带普通函数/操作法的执行计划解读带聚合函数的执行计划解读高级分组聚合Hive表的连接第4章 Hive及相关大数据结构Hive工作流程客户端提交SQL作业到HiveServer2HiveServer2根据作业及数据库中元数据原创 2021-05-26 12:59:05 · 643 阅读 · 0 评论 -
Hive性能调优实战 总结一
Hive性能调优(一)第一章数据准备@SQL语句对性能影响数据块大小对性能影响数据格式对性能影响@分区和分桶对性能影响第一章 总结第二章理解经典wordcount使用explain查看HiveSQL的执行使用YARN提供的日志查看执行@通过改写SQL实现过程干预@通过SQL-Hint方法@通过开放的一些配置开关过度优化理透需求查看元信息运行环境梳理cube、grouping set、roll up相关规范第二章总结本文章对Hive性能调优实战这本书的总结第一章数据准备init_student 学生数原创 2021-05-25 13:00:39 · 983 阅读 · 1 评论 -
超全面试汇总——Hive 超详细!!!带答案!!!持续更新中~
Hive面试总结什么是 Hive ?Hive结构描述Hive的优势内部表、外部表、分区表、分桶表hive中 排序的种类和适用场景动态分区和静态分区的区别 + 使用场景hive 语句执行顺序Hive的几种存储方式列式存储的好处HQL转化为MapReduce的过程Hive 和关系型数据库的区别Hive和HBase的对比区别Hive 小文件问题及解决Hive调优及优化列裁剪和分区裁剪谓词下推聚合类group by操作,发生数据倾斜Join 优化设置合理的map reduce的task数量sort by代替orde原创 2021-04-30 08:50:45 · 7915 阅读 · 1 评论 -
SQL转化为MapReduce的过程
SQL转化为MapReduce的过程MapReduce实现基本SQL操作的原理1. Join的实现原理2. Group By的实现原理3. Distinct的实现原理SQL转化为MapReduce的过程SparkSQL执行过程Hive的特征Hive 和关系型数据库的区别Hive的优势hive中 排序的种类和适用场景hive中split、coalesce及collect_list函数的用法(可举例)?如何交换两个数字,没有额外空间MapReduce实现基本SQL操作的原理Join/GroupBy/Orde原创 2021-03-08 23:16:33 · 3348 阅读 · 0 评论 -
Hive综合案例(根据用户行为以及文章标签筛选出用户最感兴趣的标签)
Hive综合案例背景需求相关数据重要函数流程分析和代码1.上传数据并创建表2. 分组查询每个用户的浏览记录3. 查看每篇文章的关键词4. 找到用户查看文章的关键词并统计频率5. 将用户查看的关键字和频率合并成 key:value形式并按用户聚合6.将上面聚合结果转为map放入表中7.从表中通过key查询map中的值背景内容推荐数据处理需求根据用户行为以及文章标签筛选出**用户最感兴趣(阅读最多)**的标签相关数据用户数据 user_action.txtuser_id, article原创 2020-10-19 14:11:02 · 934 阅读 · 0 评论 -
Hive 结构描述 好处 常见的压缩方式 Hive优化 小文件问题及解决
Hive结构描述Hive的优势Hive的几种常见压缩方式列式存储的好处Hive函数Hive 优化1. 请慎重使用COUNT(DISTINCT col)2. 设置合理的map reduce的task数量3. Hive 小文件问题及解决4. 不要在表关联后面加WHERE条件5. 处理掉字段中带有空值的数据6. 聚合类group by操作,发生数据倾斜7. Reduce join 改为Map join8. 少用count(distinct),先用group 去重 再count子查询,采用原创 2021-03-07 23:44:27 · 471 阅读 · 0 评论 -
HDFS与Hive实战 + 滴滴出行数据分析
HDFS与Hive实战 + 滴滴出行数据分析1.HDFS1.1 分布式文件系统1.2 HDFS的Shell命令行1.3 启动Hadoop集群1.4 大数据环境清单2.数据仓库2.1 数据仓库与数据库区别3.Hive3.1 终端连接Hive3.2 Hive操作命令3.3 Hive函数4. Zeppelin5.滴滴出行数据分析5.1 架构图5.2 日志数据集介绍5.3 构建数据仓库5.4 ods创建用户打车订单表5.5 创建分区5.6 上传到对应分区5.7 数据预处理5.8 订单分析5.8.1 app层建表5原创 2020-10-13 13:28:32 · 5097 阅读 · 2 评论 -
Hive架构,安装,使用,综合案例总结
Hive总结什么是HiveHive架构Hive和Hadoop关系Hive和关系型数据库区别Hive安装Hive 基本使用UDF自定义函数什么是Hive基于Hadoop 数据保存到HDFS原创 2020-10-09 16:27:11 · 389 阅读 · 0 评论 -
Hive 分区分桶 为什么分区分桶 怎么分区分桶
Hive 分区分桶为什么有分区怎么分区如何使用分区分区注意事项为什么要分桶?分桶的意义如何使用分桶分区分桶表为什么有分区随着系统运行时间增长,表的数据量越来越大,使用分区技术可以指定条件,缩小数据扫描的范围,避免hive全表扫描,提升查询效率可以将用户的整个表的数据 划分到多个子目录,怎么分区根据业务,通常按照年月日、地区等如何使用分区PARTITION BY(col_name data_type)hive的分区字段使用的是表外字段。而mysql使用的是表内字段。hive的分区名原创 2021-03-05 23:18:40 · 567 阅读 · 0 评论
分享