大数据随笔
文章平均质量分 76
以实战为线索,逐个探索大数据各个环节以及相对应技术。
小技工丨
所有的等待终将有所归属
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Doris 中大表与大表 Join 优化策略
最终方案需根据业务特征(如数据倾斜程度、查询并发度)进行针对性调优,并通过执行计划验证效果。:跨节点数据传输(Shuffle)导致网络带宽成为瓶颈,尤其大表 Join 时。:分桶键选择不当或数据倾斜导致节点负载不均,部分 BE 节点成为性能瓶颈。:大表 Join 时哈希表构建或中间结果缓存导致内存溢出(OOM)。在 Doris 中,大表与大表 Join 的性能瓶颈主要源于。:全列读取或复杂表达式计算导致 IO 和 CPU 开销大。大表 Join 优化需结合。原创 2025-03-25 19:50:38 · 1536 阅读 · 0 评论 -
【数据仓库】星型模型和维度建模什么区别?
星型模型是维度建模方法论中的一种具体表结构设计,而维度建模是指导这种设计的整体方法论。两者的关系类似于**“设计理念”与“具体蓝图”**——维度建模提供设计原则,而星型模型是落地时的物理表结构选择。描述业务过程的上下文属性(如时间、产品、客户),主键与事实表外键对应。记录业务过程的可量化指标(如销售额、订单数),包含外键关联维度表。原创 2025-03-26 08:15:00 · 846 阅读 · 0 评论 -
【数据仓库】湖仓一体黄金层与数仓维度建模的关系分析
湖仓一体架构通常分为原始层(Raw Layer)、中间层(Intermediate Layer)和黄金层(Gold Layer)。黄金层是经过清洗、整合和规范化后的高质量数据层,直接面向业务分析和应用场景,其核心目标是提供高性能查询和统一业务指标。原创 2025-03-26 08:00:00 · 408 阅读 · 0 评论 -
【数据仓库】湖仓一体的核心建模理论
湖仓一体(Lakehouse)是一种融合数据湖与数据仓库优势的新型架构,其建模理论在传统数据仓库与数据湖基础上进行了扩展和创新。原创 2025-03-25 08:15:00 · 1308 阅读 · 0 评论 -
【数据仓库】数据仓库建模和数据湖建模常用建模理论
数据仓库建模和数据湖建模在目标、方法和适用场景上有显著差异,以下是它们的核心区别及常用建模理论:维度建模(Kimball模型)范式建模(Inmon模型)Data VaultMedallion架构(青铜/白银/黄金层)基于表格式的建模(Delta Lake/Iceberg/Hudi)数据网格(Data Mesh)建模时机:数据治理:适用场景:技术演进:原创 2025-03-25 08:00:00 · 594 阅读 · 0 评论 -
【数据仓库】数仓维度建模中的事实表核心概念与实践案例
设计核心明确粒度:确保事实表记录不可再分的最小业务单元。简化事实:优先使用可加事实,避免存储冗余计算字段。工具适配传统数仓(如 Oracle):通过物化视图优化聚合查询。大数据平台(如 Hive):利用分区和列式存储(ORC/Parquet)提升性能。典型陷阱粒度过粗:无法支持明细分析。过度冗余:存储可计算的派生字段(如同时存单价、数量、总价)。通过合理设计事实表,企业可构建高效、灵活的数据仓库,支撑从实时监控到长期趋势分析的全场景需求。原创 2025-03-24 08:15:00 · 1680 阅读 · 0 评论 -
【数据仓库】渐变维度(SCD)类型选择与应用指南:从理论到实践
是管理维度属性随时间变化的核心技术。不同的SCD类型适用于不同场景,错误选择可能导致历史分析失真或资源浪费。本文通过系统性框架与实战案例,解析如何科学选择SCD类型。不同的SCD类型适用于不同场景,错误选择可能导致历史分析失真或资源浪费。本文通过系统性框架与实战案例,解析如何科学选择SCD类型。通过科学选择SCD类型,企业可在历史数据准确性与系统性能之间找到最佳平衡,为数据驱动决策提供坚实基石。通过科学选择SCD类型,我们可在历史数据准确性与系统性能之间找到最佳平衡,为数据驱动决策提供坚实基石。原创 2025-03-24 08:00:00 · 1705 阅读 · 0 评论 -
Spark中UDF、UDAF、UDTF的区别
合理选择函数类型,结合性能优化和资源管理,可以高效解决复杂数据处理需求。在 Spark 中的核心区别及各自的注意事项。原创 2025-03-22 08:00:00 · 1012 阅读 · 0 评论 -
Spark UDF 类型、实现与最佳实践指南
【代码】Spark UDF 类型、实现与最佳实践指南。原创 2025-03-21 08:00:00 · 753 阅读 · 0 评论 -
Hive 实际应用场景及对应SQL示例
*批处理分析:**日志清洗、用户行为统计;**数据仓库构建:**ETL流程、结构化存储;商业智能(BI):多维度聚合、报表生成。其SQL设计需重点关注窗口函数、条件聚合和数据转换操作,并结合分区/分桶优化性能。原创 2025-03-21 07:45:00 · 947 阅读 · 0 评论 -
Hive高频SQL及典型应用场景总结
高频操作:窗口函数、行列转换、条件聚合典型场景:日志分析、用户分层、报表生成优化重点:分区/分桶设计、避免全表扫描、合理使用存储格式(ORC/Parquet)原创 2025-03-20 22:14:00 · 629 阅读 · 0 评论 -
Hive高级SQL技巧及实际应用场景
如果你经常需要计算中位数,可以编写一个用户定义函数(UDF)来简化这个过程。# 注册UDF到HiveSELECTJOIN (SELECT。原创 2025-03-13 13:40:46 · 1138 阅读 · 0 评论 -
VMware16安装centos7无法ping通外网???
在 VMware Workstation 16 中安装 CentOS 7 并确保能够,需要正确配置虚拟机的网络设置。原创 2025-02-21 21:23:53 · 886 阅读 · 0 评论 -
Hive生成日期维度表
hive建一个完整的时间维表原创 2023-08-28 15:39:08 · 1070 阅读 · 0 评论 -
解决:Sqoop导入数据到Hive连接hiveserver2卡住
问题执行sqoop job要将mysql中数据导入hive表,执行到连接hiveserver2时就卡住不动单独执行连接hiveserver2可以正常连接Import options:sqoop import --connect jdbc:mysql://xxx:3306/test --username xxxxx --password xxxxxx --table t_user --fields-terminated-by '\001' --hive-import --hive-data原创 2020-07-27 14:41:28 · 3295 阅读 · 3 评论 -
CDP安装schema registry和streams messaging异常java.lang.ClassNotFoundException: com.mysql.cj.jdbc.Driver处理
异常CDP7.1.1.0的CM安装完成后,在安装schema registry和streams messaging manager组件时都会出现:Caused by: java.lang.ClassNotFoundException: com.mysql.cj.jdbc.Driver这样的异常。原因cdp7.1.1.0元数据数据库安装的是mysql5.7的版本,该版本的驱动类是com.mysql.jdbc.Driver,而com.mysql.cj.jdbc.Driver是mysql6以上版的驱动类,原创 2020-07-24 15:51:41 · 620 阅读 · 0 评论 -
CentOS7安装mysql5并修改数据目录
安装MySQL数据库RHEL或者说Centos本身不再包含MySQL。必须从MySQL官网下载存储库并直接安装。也可以使用以下命令来安装MySQL。有关更多信息,请访问MySQL官网。wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpmsudo rpm -ivh mysql-community-release-el7-5.noarch.rpmsudo yum updatesudo yum install mysql原创 2020-07-25 23:16:05 · 1007 阅读 · 0 评论 -
基于Centos7搭建CDH6.3.2环境
1、基础环境OS:Centos 7.6Cloudera Manager:6.3.1CDH:6.3.2JDK:1.8MySQL(MariaDB):5.7设有三个节点node01 192.168.0.1node02 192.168.0.2node03 192.168.0.32、服务器设置(所有节点)2-1、设置静态ip2-2、修改hostname以及hosts文件2-3、关闭防火墙2-4、禁用SELinux2-4、禁用Swap2-5、配置免密登录2-6、安装jdk#安原创 2021-07-07 18:06:51 · 1631 阅读 · 0 评论 -
【Hive】SQL窗口函数实践
一、准备DROP TABLE IF EXISTS db_test.merchants_turnover;CREATE TABLE IF NOT EXISTS db_test.merchants_turnover( merchant_name STRING COMMENT '店铺名称', turnover DECIMAL(10, 2) COMMENT '营业额', dt STRING COMMENT '日期yyyy-MM-dd') COMMEN原创 2022-02-22 20:21:14 · 1820 阅读 · 0 评论
分享