- 博客(13)
- 问答 (1)
- 收藏
- 关注
原创 kafka随笔
kafka是一个消息队列,主要目的是削峰,常用实时架构中flume->kafka>spark streaming->kafka
2022-07-31 22:39:16
523
1
原创 理解spark 宽、窄依赖
代码如下 def main(args: Array[String]): Unit = { val sparkConf: SparkConf = new SparkConf().setAppName("LocalTest").setMaster("local[*]") val sc: SparkContext = new SparkContext(sparkConf) val rdd: RDD[Int] = sc.makeRDD(List(1,2,3,4,5),3) pr
2020-10-15 10:08:59
304
原创 aggregateByKey、aggregate理解
aggregateByKey的三个参数解释: 第一个参数:每个分区中不同key的初始值第二个参数:分区内对相同key的值的自定义函数(需要带上第一个参数) 第三个参数:不同分区中相同key的值的自定义函数比如:aggregateByKey(0)(math.max(,),+)def main(args: Array[String]): Unit = {val sparkConf = new SparkConf().setMaster("local[2]").setAppName("test").
2020-10-13 15:13:25
956
原创 Sqoop安装及使用踩坑
踩坑:1.该台需要启动hiveserver2服务,因为sqoop会调用hive命令,进行数据load,或者创建表2.hive lib下的jar包需要复制到sqoop lib下,测试环境直接全复制3.hive conf目录下的 hive-site.xml hive-log4j-propertie.xml文件复制到sqoop conf/目录下sqoop抽取mysql数据到hive过程分为2步:1.抽取mysql数据到HDFS,可以指定–target-dir,若不指定默认到/usr/${USER}/下
2020-08-28 14:37:08
185
原创 SparkStreaming无法读取hdfs文件
代码如下:package com.sparkimport org.apache.spark.rdd.RDDimport org.apache.spark.streaming.dstream.DStreamimport org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.{SparkConf, SparkContext}object SparkStreamHDFS { def main
2020-08-04 12:09:15
624
1
原创 Flume-Kafka(Scala)
Flume-kafka版本信息架构图Flume配置文件Kafka消费者服务器测试代码测试版本信息Flume 版本:1.7Kafka版本:kafka_2.11-2.3.1架构图Flume配置文件# exec_memory_kafka.confa1.sources = r1a1.channels = c1a1.sinks = k1a1.sources.r1.type = ex...
2020-01-06 14:46:27
417
原创 Kafka-Consumer(Java & Scala)
Kafka-Consumer-JavaMaven 依赖配置类消费者测试类联合测试本文使用java api来实现 kafka消费,配合服务器生产消息/Java代码生产消息Kafka-Producer JAVA 实现 Maven 依赖 <dependency> <groupId>org.apache.kafka</groupId>...
2020-01-05 16:16:37
742
原创 Kafka-Producer(Java & Scala)
Kafka-Java APIMaven依赖配置类生产者测试类本文使用java api来实现 kafka生产者,组合服务器消费者Maven依赖 <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clie...
2020-01-04 12:04:30
516
原创 Kafka-搭建
Kafka搭建Kafka核心概念BrokerTopicPartitionProducerConsumerConsumer GroupKafka安装Setting up a multi-broker clusterfault-toleranceKafka核心概念Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。Kafka的目的是通过Hadoop的并行...
2020-01-03 11:11:03
441
原创 Flume-常见source、channel、sink
常见Flume-source、channel、sink详解Flume SourcesAvro SourceExec SourceSpooling Directory SourceKafka SourceFlume SourcesAvro SourceListens on Avro port and receives events from external Avro client strea...
2020-01-02 23:20:57
2259
1
原创 Flume-配置解析
Flume-配置解析官网说明官网说明Each component (source, sink or channel) in the flow has a name, type, and set of properties that are specific to the type and instantiation. For example, an Avro source needs a h...
2020-01-01 16:57:49
426
原创 Flume-安装配置
Flume入门手记官方说明安装说明新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入官方说明Flume is ...
2019-12-31 11:13:32
119
空空如也
hive中的local hadoop
2016-10-01
TA创建的收藏夹 TA关注的收藏夹
TA关注的人