Hadoop
文章平均质量分 84
F_0125
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive的架构
语言(HiveQL)将结构化数据映射为 Hadoop 的 MapReduce、Tez 或 Spark 任务,适合离线批处理,尤其适用于数据仓库场景(如 ETL、报表生成)。2.外部表(External Table):数据存储在 HDFS 的指定路径,删除表仅删除元数据,保留数据。支持多种引擎:MapReduce(默认)、Tez(优化 DAG 执行)、Spark(内存计算)。:按列值(如日期)将数据划分到不同目录,提升查询效率(如分区裁剪)。Metastore:独立服务,管理元数据,支持高并发访问。原创 2025-03-10 00:01:38 · 716 阅读 · 0 评论 -
HDFS的设计架构
NameNode 是单点故障(SPOF),因此通常需要配置高可用性(HA)方案,如使用双 NameNode(Active-Standby)。主要职责:定期合并 NameNode 的编辑日志(EditLog)和文件系统镜像(FsImage),减少 NameNode 的启动时间。3. 客户端将数据块写入第一个 DataNode,第一个 DataNode 将数据复制到第二个 DataNode,依此类推。当某个 DataNode 故障或数据块损坏时,NameNode 会检测到并触发数据块的复制操作,确保数据冗余。原创 2025-03-06 23:39:57 · 841 阅读 · 0 评论
分享