
大数据
文章平均质量分 70
在大数据的道路上一起同行,从此不再孤单
愿与狸花过一生
嗨!来了,来坐会吧,在这里你可以做你自己,可以按照你的节奏,放慢脚步,把自己还给自己
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
使用idea开发spark程序
使用idea开发spark程序原创 2025-03-28 21:03:00 · 576 阅读 · 0 评论 -
使用IDEA操作HDFS命令
使用idea执行hdfs 命令原创 2025-03-26 22:39:06 · 377 阅读 · 0 评论 -
Sqoop 常用命令
Sqoop 是用于在 Hadoop 和关系型数据库(如 MySQL、Oracle 等)之间高效传输数据的工具。原创 2025-03-23 22:03:16 · 981 阅读 · 0 评论 -
ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.RuntimeException: Could not load db driver
ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.RuntimeException: Could not load db driver原创 2025-03-23 09:20:12 · 310 阅读 · 0 评论 -
Sqoop安装部署
Sqoop 是一个用于在 Apache Hadoop 和结构化数据存储(如关系数据库和大型数据仓库)之间高效传输大量数据的工具。它能够帮助用户将数据从关系型数据库管理系统(RDBMS),例如 MySQL 或 Oracle,导入到 Hadoop 分布式文件系统(HDFS)中,或者反过来将数据从 HDFS 导出到 RDBMS 中。这使得 Sqoop 成为了大数据处理流程中不可或缺的一部分,因为它简化了数据迁移的过程,并且支持批量数据传输。原创 2025-03-21 21:03:27 · 907 阅读 · 0 评论 -
hive 表结构
Hive 是构建在 Hadoop 上的数据仓库工具,其表结构设计直接影响到数据存储和查询性能。以下是 Hive 表的核心结构要素及常见操作:原创 2025-03-20 20:55:32 · 984 阅读 · 0 评论 -
大数据面试之路 (三) mysql
技术选型通常也是被问道的问题, 一方面考察候选人对技术掌握程度,另一方面考察对项目的理解,以及项目总结能力。介绍项目是从数据链路介绍,是一个很好来的方式,会让人觉得思路清晰,项目理解透彻。原创 2025-03-12 14:41:56 · 755 阅读 · 0 评论 -
大数据 spark hive 总结
RDD 是 Spark 的最底层抽象,表示分布在集群节点上的不可变、可分区的数据集合。它提供。原创 2025-03-10 18:42:48 · 1812 阅读 · 0 评论 -
大数据面试之路 (一) 数据倾斜
数据倾斜场景以及对应的解决方案。原创 2025-03-11 10:39:08 · 1477 阅读 · 0 评论 -
数仓建模
以空间换时间,适合快速分析场景,牺牲存储效率换取高性能。以时间换空间,适用于维度属性复杂、存储成本敏感的系统。:通过分解表结构减少数据冗余,提升数据一致性。:消除非主属性对候选键的部分依赖。:消除非主属性对候选键的传递依赖。:字段原子性,不可再分。原创 2025-03-07 17:32:58 · 254 阅读 · 0 评论 -
hive 面试题
基于Hadoop的数据仓库工具,支持类SQL(HiveQL)查询,底层转换为MapReduce/Tez/Spark任务。定位:OLAP(分析型),非OLTP(事务型)。使用列式存储(ORC/Parquet)和压缩(Snappy)。存储表结构、分区、数据位置等信息,生产环境常用MySQL。内部表:数据由Hive管理,删除表时数据连带删除。分区/分桶、ORC格式、MapJoin、压缩数据。模式:内嵌模式、本地模式、远程模式(推荐)。外部表:仅删除元数据,数据保留在HDFS。延迟 高(分钟级) 低(毫秒级)原创 2025-02-27 16:45:41 · 479 阅读 · 0 评论 -
数据仓库必备知识
数据仓库(Data Warehouse,DW/DWH)是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用于支持企业决策分析。核心目标:将分散在多个业务系统中的数据整合为统一视图,提供历史性和全局性分析能力。原创 2025-03-07 14:36:35 · 1254 阅读 · 0 评论 -
大数据面试之路 (二) hive小文件合并优化方法
大量小文件容易在文件存储端造成瓶颈,影响处理效率。对此,您可以通过合并Map和Reduce的结果文件来处理。原创 2025-03-11 15:30:57 · 1137 阅读 · 0 评论 -
hadoop 常用命令
hadoop spark 启动命令原创 2025-03-09 15:30:36 · 375 阅读 · 0 评论