
BigData
金色的阳光
尚未配妥剑,转眼便江湖。愿历经千帆,归来仍少年
展开
-
大数据实战(3)---实时流处理:Spark Streaming
1.概述 1)可扩展、高吞吐量、容错的 2)将不同数据源数据经过Spark Streaming处理,将处理结果输出到外部文件系统 特点:低延时、能从错误中高效的恢复:fault-tolerant、能够运行在成百上千的节点、能够将批处理、机器学习、图计算等子框架和Spark Streaming综合使用。 2.核心组件 基于Spark Core(离线处理)=>1)Spar...原创 2019-11-27 10:51:27 · 755 阅读 · 0 评论 -
大数据实战(2)---分布式消息队列:Kafka
1.Kafka概述 1.概述 妈妈:生产者 你:消费者 馒头:数据流、消息 正常情况下: 生产一个 消费一个 其他情况: 一直生产,你吃到某一个馒头时,你卡主(机器故障), 馒头就丢失了 一直生产,做馒头速度快,你吃来不及,馒头也就丢失了 拿个碗/篮子,...原创 2019-11-26 11:12:15 · 188 阅读 · 0 评论 -
大数据实战(1)---日志收集:Flume
1.Flume概述 Flume is a distributed, reliable, and available service for efficiently collecting(收集), aggregating(聚合), and moving(移动) large amounts of log data 1.业界同类产品的对比 Flume: Cloudera/Apache...原创 2019-11-26 10:49:11 · 173 阅读 · 0 评论