
大数据服务部署
文章平均质量分 81
1、软件下载
2、服务部署规划
3、部署步骤
4、常见问题解决
oo寻梦in记
这个作者很懒,什么都没留下…
展开
-
【大数据】-- 读放大和写放大
在大数据领域,读放大和写放大是描述存储系统性能的重要概念,主要用于评估数据存储和处理系统在读写操作中的效率问题。1. 读放大(Read Amplification)定义读放大是指为了满足一个用户的读取请求,存储系统需要读取的数据量比请求的数据量更多的现象。原因数据分片:大数据系统(如 HBase、Cassandra)将数据分散存储在多个节点上,读取时可能需要访问多个节点来聚合结果。索引开销:为了找到特定的数据,系统可能需要先扫描索引数据或元数据。压缩机制。原创 2024-12-16 10:19:13 · 147 阅读 · 0 评论 -
【Hive】-- hive 3.1.3 伪分布式部署(单节点)
hadoop3的默认端口:https://www.stefaanlippens.net/hadoop-3-default-ports.html。hadoop3默认端口:https://blog.youkuaiyun.com/high2011/article/details/144406887。访问 namenode:http://localhost:9870/dfshealth.html#tab-overview。访问 yarn:http://localhost:8088/cluster/nodes。原创 2024-12-13 15:44:21 · 364 阅读 · 0 评论 -
【Apache paimon】-- 集成 hive3.1.3 异常
但 apache paimon 0.9.0 使用的 zstd-jni-1.5.5-11.jar,版本更高,所以,我们需要将低版本的包替换为高版本的包。(3)将 target/my_zstd_luben.jar 复制到 $HIVE_HOME/lib/Step1:在 hive cli beeline 执行创建 hive paimon 表。Step3:重启 hiveserver2 和 hive metastore。Step2:搜索job 使用的 zstd jar 版本。Step3:定位 hive lib 目录。原创 2024-12-13 13:05:46 · 690 阅读 · 0 评论 -
【Hive】-- 周边生态版本兼容
JDK 1.8 ,不推荐 jdk 11Hadoop 3.3.x,不推荐 hadoop 3.2.x 及以下版本Flink 未自动适配,需要手动调整TEZ 未自动适配,需要手动调整。原创 2024-12-13 10:06:21 · 431 阅读 · 0 评论 -
【Hadoop】-- hadoop3.x default port
【代码】【Hadoop】-- hadoop3.x default port。原创 2024-12-11 18:07:53 · 281 阅读 · 0 评论 -
【数据湖仓】-- 阿里云 dataworks 和 AWS Glue 数据治理工具对比
阿里云 DataWorks 和 AWS Glue 都是云平台提供的数据集成、数据处理和数据管道管理服务,旨在帮助用户构建和管理数据工作流和 ETL(提取、转换、加载)操作。虽然它们提供了相似的核心功能,但由于两者分别属于阿里云和 AWS,各自的特点和优势有所不同。以下是它们在多个维度的对比,包括功能、易用性、成本等方面。原创 2024-11-26 10:39:30 · 558 阅读 · 0 评论 -
【数据湖仓】-- 阿里云 EMR 和 AWS EMR 工具对比
阿里云 EMR(Elastic MapReduce)和 AWS EMR(Amazon Elastic MapReduce)都是云平台提供的分布式数据处理服务,主要用于处理大规模数据集,并支持 Hadoop、Spark、Hive 等大数据处理框架。尽管它们有类似的功能,但在细节上有很多差异,包括性能、可用性、价格、集成生态等。以下是两者的对比,包括优缺点和成本分析。原创 2024-11-26 10:30:16 · 496 阅读 · 0 评论