
大数据
文章平均质量分 50
happyredstar
这个作者很懒,什么都没留下…
展开
-
数据湖 Data Lake
# 企业的挑战1. 数据量增长迅速2. 数据源非常多样3. 数据获取的有效性4. 数据的可访问性5. 数据的质量和实效性6. 跨业务单元的数据分享7. 有效的决策原创 2022-07-11 22:51:21 · 296 阅读 · 0 评论 -
HDFS-Spark-Hudi环境的搭建及测试
由于需要进行Hudi的详细选型,本文从0开始搭建一个Spark+Hudi的环境,并进行简单使用。1)假设在Linux进行环境安装,操作系统选择Ubuntu 22.04 LTS版本。2)Ubuntu的源配置清华源。3)JDK安装完毕(当前是1.8版本,1.8.0_333)。2.2 localhost免密登录3. Hadoop安装Hadoop安装的是单节点伪分布式环境,版本选择和后继的Spark选择有关联。例如:Hadoop 3.2.3Hudi当前支持的是Spark3.2,对应的Spark也是3.2。1原创 2022-07-10 23:21:12 · 1251 阅读 · 0 评论 -
Confluo对比Kafka
Confluo对比Kafka 最近几天老是看到一篇“伯克利开源 Confluo:吞吐量比 Kafka 高 4 到 10 倍”的文章,到底什么是Confluo,看了一下它的论文和代码,简单分析了一下:初步分析完感觉这个东东为啥要和Kafka比呢?又没有啥可比性,就像Kafka从来不会和Redis比Pub-Sub时延一样。而且这一篇文章感觉比Kafka高大上好多似的,非常容...原创 2018-12-20 22:38:00 · 1929 阅读 · 0 评论