
Spark Streaming实时流处理项目
spark Streaming
臭臭在奔跑
Never say never
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
5、分布式消息队列Kafka
1、概述 Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言...原创 2019-10-24 10:41:04 · 257 阅读 · 0 评论 -
1、Spark Streaming实时流处理项目---项目介绍
一、开发环境 二、OOTB环境使用样式 虚拟机 VMware Fusion Mac 上搭建:4台虚拟机 Hadoop环境:虚拟机,是远程登录 root用户的密码是什么? 修改配置文件,是需要root权限的,怎么办? 命令:sudo comma...原创 2019-09-25 15:08:46 · 235 阅读 · 0 评论 -
2、Spark Streaming实时流处理项目---实时流应用
1、初识实时流处理 2、业务现状分析 需求: 统计主站每个(指定)课程访问的客户端、地域信息分布 地域:IP转换 SparkSQL项目实战 客户端:useragent获取 Hadoop基础课程 → 如上俩个操作...原创 2019-09-27 15:26:28 · 250 阅读 · 0 评论 -
4、分布式日志收集框架Flume
一、业务现状分析 如何解决我们的数据从其他的server上移动到Hadoop之上? shell cp hadoop集群到机器上 hadoop fs -put --- 二、Flume概述 webs...原创 2019-09-27 17:41:54 · 220 阅读 · 0 评论 -
Flume实战--使用flume进行日志收集
朋友到这个博客很详细,适合初学和实战的同学 https://blog.youkuaiyun.com/wen_fei/article/details/84923094原创 2019-10-03 22:39:13 · 236 阅读 · 0 评论