大数据技术
文章平均质量分 88
大数据技术日新月异,从 Hadoop 1.0 到现在的湖仓一体、实时计算,技术栈不断演进。本专栏专注于前沿技术追踪 ,把握技术趋势,做出正确选型。
`林中水滴`
程序人生
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive系列:Hive 函数大全
Hive内部提供了很多函数给开发者使用,包括数学函数,类型转换函数,条件函数,字符函数,聚合函数,表生成函数等等,这些函数都统称为内置函数。原创 2025-12-31 08:53:05 · 0 阅读 · 0 评论 -
Hive系列:Hive 默认分隔符
Hive 中的默认分隔符是 ^A (\001) ,这是一种特殊的分隔符,使用的是 ASCII 编码的值,键盘是打不出来的。“\001” “\002” "\003"分隔是程序代码中进行解析需要的。通过字符替换输入八进制的 ASCII 码,可以实现输入特殊字符。所以,notePad++ 打开后显示的分隔符正常。从 ASCII 输入面板中选择需要输入的字符即可。Linux 上的文件。原创 2025-12-31 08:52:32 · 0 阅读 · 0 评论 -
Hive系列:Hive 配置项详解
用户定义的必须实现org.apache.hadoop.hive.ql.security.authorization.HiveMetastoreAuthorizationProvider接口;用户定义的要实现org.apache.hadoop.hive.ql.security.authorization.HiveAuthorizationProvider;用户定义的需要实现org.apache.hadoop.hive.ql.security.HiveAuthenticatorProvider;原创 2025-12-31 08:51:32 · 0 阅读 · 0 评论 -
Hive系列:Hive 安装和配置
Hive 的表数据存储于 HDFS 中,所以需要开启 HDFS 集群,Hive 的查询依赖于 MapReduce 任务,所以需要开启 Yarn 集群。Hive 元数据存储于 Linux 系统下的 mysql 5 中,所以需要启动 mysql 服务,并允许 Hive 远程连接 mysql。将 apache-hive-3.1.2-bin.tar.gz 安装包上传到 node-01 的 /root 目录下并将其解压。如果初始化失败,请检查连接 MySQL 配置的 URL 地址是否正确。原创 2025-12-31 08:50:18 · 28 阅读 · 0 评论 -
大数据数仓设计:分层架构与维度建模
性能优化:在Hive中使用分区、ORC格式和压缩(如Snappy),减少I/O。查询时间∝数据量分区数查询时间 \propto \frac{数据量}{分区数}查询时间∝分区数数据量。数据治理:添加元数据管理(如Hive Metastore),确保表结构一致。常见陷阱:避免过度规范化(雪花模式在Hive中可能慢);监控ETL任务。总结:分层架构和维度建模是数仓设计的基石。基于Hive实现时,优先星型模式,并利用分层提升可扩展性。原创 2025-12-31 08:43:55 · 81 阅读 · 0 评论 -
数据仓库:后台服务器就十几张表,为什么要建几十张表的数仓?
首先,数据仓库采用分布式存储,比如 HDFS 是分布式文件系统,HBase、MongeDB 等也是分布式数据库,支持横向扩展,只要增加服务器,理论上可以支持无限存储。其实,打一个不恰当的比方,数据仓库分层架构就好比预制菜,预制菜提前把你想要吃的菜配料都准备好,你只管选你喜欢的预制菜,下锅蒸煮即可,速度自然比你一步步从头自己做快多了。毕竟,天下没有白吃的午餐。而数据仓库的设计则是为数据分析而来,它能够存储海量的历史记录,支持复杂的聚合分析,数据分析性能更好,耗时更短,也就是所谓的 OLAP(联机分析处理)。原创 2025-12-31 08:41:01 · 188 阅读 · 0 评论 -
Flume停止维护了!
因此 Flume 并没有被“某一个”工具完全取代,而是被不同场景下更专业、社区更活跃的产品“分而治之”了。原创 2025-12-30 18:02:31 · 288 阅读 · 0 评论 -
Iceberg vs Hudi
Iceberg 和 Hudi 的初衷场景并不完全相同,造成了在设计上的差别。因此后面是趋同还筑起各自专长优势壁垒未可知。Hudi跟Spark的代码深度绑定,尤其是写入路径。其设计之初,基本上把Spark作为他们的默认计算引擎了。而 Apache Iceberg 的方向非常坚定,宗旨就是要做一个通用化设计的Table Format。它完美的解耦了计算引擎和底下的存储系统,便于多样化计算引擎和文件格式,很好的完成了数据湖架构中的Table Format。原创 2025-12-30 18:01:25 · 562 阅读 · 0 评论 -
SeaTunnel vs Flume
完整 SQL 支持多表 Join窗口函数自定义 UDF数据质量检查。原创 2025-12-30 17:50:34 · 484 阅读 · 0 评论
分享