
Hive
文章平均质量分 70
主要参考《hive离线计算开发实战》和《hive性能调优实战》
程研板
计算机本硕连读,热爱大数据和人工智能,希望能够为apache社区添砖加瓦。2025年起开始接做毕设的项目。
展开
-
Hive的Metastore与Hiveserver2
文章目录Metastore原生Hive(内嵌模式)采用外部数据库(本地模式)单独起metastore服务(远程模式)Hiveserver2Metastore原生Hive(内嵌模式)Derby的内嵌模式:Derby数据库与应用程序共享同一个JVM,通常由应用程序负责启动和停止,对除启动它的应用程序外的其它应用程序不可见,即其它应用程序不可访问它;不同路径下启动hive,不同路径下都会生成metastore_db文件,每一个路径下的hive拥有一套自己的元数据,无法共享。spark和Hive一样,都原创 2022-01-25 20:42:43 · 4719 阅读 · 0 评论 -
关于Hive和Spark on yarn的调度总结
目录参考文章参考文章Hive Driver 原理yarn-cluster和yarn-client提交模式的区别Spark Thrift Server 架构和原理介绍理解Spark SQL(一)—— CLI和ThriftServer原创 2021-05-22 21:10:20 · 895 阅读 · 0 评论 -
Hive性能调优(四)——如何解决数据倾斜问题
目录原创 2021-04-24 12:52:01 · 247 阅读 · 2 评论 -
Hive性能调优(三)——通过Yarn WebUI来定位性能瓶颈
目录原创 2021-04-22 15:35:20 · 1024 阅读 · 3 评论 -
Hive性能调优(二)——一文搞懂HiveSQL执行计划
测试的数据请看上一篇博客,数据行数500万。目录一.简单SQL的执行计划二.带普通函数SQL的执行计划三.带聚合函数SQL的执行计划四.带窗口函数SQL的执行计划五.表连接的SQL的执行计划一.简单SQL的执行计划explain select s_age,s_scorefrom student_tb_seqwhere s_age=20;+----------------------------------------------------+--+| .原创 2021-04-18 16:34:03 · 1073 阅读 · 0 评论 -
Hive性能调优(一)——不同数据格式对Hive性能的影响
目录一.数据生成二.数据准备三.性能测试四.原因分析一.数据生成# coding: utf-8import randomimport datetimeimport importlibimport sysimportlib.reload(sys)# lastname和first都是为了来随机构造名称lastname = u"赵李周吴郑王冯陈褚卫蒋沈韩杨朱秦尤许何吕施张孔曹严华金魏陶姜戚谢邹喻柏水窦章云苏潘葛奚范彭郎鲁韦昌马苗"firstname = u"红尘冷暖岁月清浅仓促间遗落一地如诗原创 2021-04-17 11:38:51 · 625 阅读 · 0 评论 -
hive执行任务的map个数
执行一个600多MB的数据(就一个文件,里面有500万行数据),在hdfs中有5个block,只用了3个mapper,有点不理解。hive> select count(1) from sogou_ext_20111230;MapReduce Jobs Launched: Stage-Stage-1: Map: 3 Reduce: 1 Cumulative CPU: 10.03 sec HDFS Read: 643703440 HDFS Write: 8 SUCCESSTotal Ma原创 2021-02-13 23:33:05 · 776 阅读 · 0 评论 -
Hive内外表和分区分桶
目录关于external和location分区Beeline关于external和location不管是外部表还是内部表,location为默认值的话,创建表的时候都会在数据库文件夹下产生和表同名的文件夹。内部表删除,文件夹和文件夹下的数据都会删除。外部表不会。mysql> select * from DBS;+-------+-----------------------+---------------------------------------------------------+--原创 2021-02-08 19:26:01 · 388 阅读 · 0 评论 -
大数据Hive学习案例(3)——基于新浪微博的日志数据分析
下方有数据可免费下载目录原创 2020-08-14 17:03:04 · 7482 阅读 · 1 评论 -
大数据Hive学习案例(2)——基于汽车销售的日志数据分析
下方有数据可免费下载目录原始数据项目实战数据仓库的构建1.构建数据仓库2.创建原始数据表3.加载数据到数据仓库4.验证数据结果数据分析1.乘用车辆和商用车辆的销售数量和比例2.山西省2013年每个月的汽车销售数量比例3.买车的男女比例和男女对车的品牌的选择4.车的所有权,车辆型号,车辆类型5.不同车型在一个月的销售量6.不同品牌车销售情况,统计发动机和燃料种类7.统计五菱某一年每月的销售量数据下载请点击我,提取码:cxr7,觉得有用希望您能点一个赞哦。原始数据原始数据为csv格式,列数比较多.原创 2020-08-12 02:42:30 · 13157 阅读 · 1 评论 -
大数据Hive学习案例(1)——基于搜狗sogou_500w的日志数据分析
基于搜狗sogou_500w的日志数据分析数据预处理查看数据数据扩展数据加载构建数据仓库创建外部表创建分区表数据分析需求条数统计关键词分析UID分析用户行为分析点击次数与rank之间的关系分析直接输入URL作为查询词的比例独立用户行为分析数据预处理查看数据[hadoop@hadoop000 hive_data]$ less sogou.500w.utf820111230000005 57375476989eea12893c0c3811607bcf 奇艺高清 1原创 2020-08-08 17:06:00 · 4566 阅读 · 0 评论