
大数据
文章平均质量分 70
程序员.小富
这个作者很懒,什么都没留下…
展开
-
Hive调优集锦(2)
Join优化整体原则:1、优先过滤后再进行 join 操作,最大限度的减少参与 join 的数据量2、小表 join 大表,最好启动 mapjoin,hive 自动启用 mapjoin, 小表不能超过25M,可以更改3、Join on的条件相同的话,最好放入同一个job,并且 join 表的排列顺序从小到大:select a., b., c.*join c4、如果多张表做 join, 如果多个链接条件都相同,会转换成一个JOb• 优先过滤数据。原创 2023-07-23 16:34:48 · 763 阅读 · 0 评论 -
Hive 调优集锦(1)
Hive 作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响 Hive 效率的几乎从不是数据量过大,而是 数据倾斜、数据冗余、Job或I/O过多、MapReduce 分配不合理 等等。对 Hive 的调优既包含 Hive 的建表设计方面,对 HiveHQL 语句本身的优化,也包含 Hive 配置参数 和 底层引擎 MapReduce 方面的调整。所以此次调优主要分为以下四个方面展开:1、Hive 的建表设计层面2、HQL 语法和运行参数层面3、Hive 架构层面。原创 2023-07-23 16:34:16 · 1099 阅读 · 0 评论 -
Spark Sql优化之3.0特性AQE
spark3.0 sql性能优化实践原创 2022-05-02 21:24:50 · 5095 阅读 · 0 评论 -
Folium使用教程
常用高德地图地址:ldlzhy1984 2018-07-12 14:29:08 3524 收藏 2版权矢量地图带注记:https://webrd0{1-4}.is.autonavi.com/appmaptile?lang=zh_cn&size=1&scale=1&style=8&x={x}&y={y}&z={z}矢量地图不带注记:http://wprd0{1-4}.is.autonavi.com/appmaptile?lang=zh_cn&原创 2021-11-30 14:32:40 · 456 阅读 · 0 评论 -
Spark总结
参考文档1、 Spark 2.2.x 中文文档原创 2021-03-09 10:10:58 · 136 阅读 · 0 评论