Spark Streaming
vincent_hahaha
haha ha
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark Streaming(四)kafka搭建(单节点,单broker)
下载Kafka 我使用的版本是kafka_2.11-2.0.1.tgz 解压:tar -xvf kafka_2.11-2.0.1.tgz -C ~/app/ 添加至系统环境变量中: 配置Kafka 查看并修改config下面的server.properties: # 相当于存放数据的容器 broker.id=0 log.dirs=/home/iie4bu/app/tmp/kafka-logs zookeeper.connect=localhost:2181 启动kafka 一个server相当于一个br原创 2020-07-14 15:44:50 · 196 阅读 · 0 评论 -
Spark Streaming(三)zookeepe搭建
下载Zookeeper 首先去CDH下载,zookeeper-3.4.5-cdh5.15.1,然后解压,并添加至环境变量: 在目录zookeeper-3.4.5-cdh5.15.1/conf下,复制一份zoo_sample.cfg修改为zoo.cfg,修改内容: dataDir=/home/iie4bu/app/tmp/zookeeper 启动zookeeper 查看zookeeper: 后台进程显示QuorumPeerMain表示zookeeper成功启动了。 ...原创 2020-07-14 14:41:32 · 134 阅读 · 0 评论 -
Spark Streaming(二)Flume
现状分析 如何解决我们的数据从其他的server上移动到Hadoop之上 脚本shell cp到Hadoop集群的机器上,然后使用hadoop fs -put命令传到hadoop上【问题:1.这种方法如何做监控,2.文本数据的传输对于磁盘的开销非常大 3. 必须要指定一个间隔的时间,比如每隔1分钟拷贝一次,这样时效性不好 4. 如何做容错和负载均衡】 使用Flume。容错、负载均衡、高延迟、压缩在flume中都有很好的解决。只需要写config就可以了 Flume概述 Flume is a dis原创 2020-07-02 17:09:26 · 206 阅读 · 0 评论 -
Spark Streaming(一)概述
需求 统计主站每个(指定)课程访问的客户端、地域信息分布 地域:IP转换 客户端: useragent获取 ===> 如上两个操作:采用(Spark/MapReduce)的方式进行统计 实现步骤: 课程编号、ip信息、useragent 进行相应的统计分析操作:MapReduce/Spark 项目架构 日志收集:Flume 离线分析:MapReduce/Spark 统计结果图形化展示 问题 按小时级别统计没问题 如果按秒级进行统计,MapReduce则不现实,MapReduce时效性不好,处理时间较长原创 2020-07-02 10:06:11 · 353 阅读 · 0 评论
分享