
大数据
文章平均质量分 80
再努力试试
一个怠惰的人
展开
-
kafka随笔
kafka是一个消息队列,主要目的是削峰,常用实时架构中flume->kafka>spark streaming->kafka原创 2022-07-31 22:39:16 · 530 阅读 · 2 评论 -
理解spark 宽、窄依赖
代码如下 def main(args: Array[String]): Unit = { val sparkConf: SparkConf = new SparkConf().setAppName("LocalTest").setMaster("local[*]") val sc: SparkContext = new SparkContext(sparkConf) val rdd: RDD[Int] = sc.makeRDD(List(1,2,3,4,5),3) pr原创 2020-10-15 10:08:59 · 309 阅读 · 0 评论 -
aggregateByKey、aggregate理解
aggregateByKey的三个参数解释: 第一个参数:每个分区中不同key的初始值第二个参数:分区内对相同key的值的自定义函数(需要带上第一个参数) 第三个参数:不同分区中相同key的值的自定义函数比如:aggregateByKey(0)(math.max(,),+)def main(args: Array[String]): Unit = {val sparkConf = new SparkConf().setMaster("local[2]").setAppName("test").原创 2020-10-13 15:13:25 · 962 阅读 · 0 评论 -
Sqoop安装及使用踩坑
踩坑:1.该台需要启动hiveserver2服务,因为sqoop会调用hive命令,进行数据load,或者创建表2.hive lib下的jar包需要复制到sqoop lib下,测试环境直接全复制3.hive conf目录下的 hive-site.xml hive-log4j-propertie.xml文件复制到sqoop conf/目录下sqoop抽取mysql数据到hive过程分为2步:1.抽取mysql数据到HDFS,可以指定–target-dir,若不指定默认到/usr/${USER}/下原创 2020-08-28 14:37:08 · 189 阅读 · 0 评论 -
SparkStreaming无法读取hdfs文件
代码如下:package com.sparkimport org.apache.spark.rdd.RDDimport org.apache.spark.streaming.dstream.DStreamimport org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.{SparkConf, SparkContext}object SparkStreamHDFS { def main原创 2020-08-04 12:09:15 · 635 阅读 · 1 评论 -
Flume-Kafka(Scala)
Flume-kafka版本信息架构图Flume配置文件Kafka消费者服务器测试代码测试版本信息Flume 版本:1.7Kafka版本:kafka_2.11-2.3.1架构图Flume配置文件# exec_memory_kafka.confa1.sources = r1a1.channels = c1a1.sinks = k1a1.sources.r1.type = ex...原创 2020-01-06 14:46:27 · 420 阅读 · 0 评论 -
Kafka-Consumer(Java & Scala)
Kafka-Consumer-JavaMaven 依赖配置类消费者测试类联合测试本文使用java api来实现 kafka消费,配合服务器生产消息/Java代码生产消息Kafka-Producer JAVA 实现 Maven 依赖 <dependency> <groupId>org.apache.kafka</groupId>...原创 2020-01-05 16:16:37 · 745 阅读 · 0 评论 -
Kafka-Producer(Java & Scala)
Kafka-Java APIMaven依赖配置类生产者测试类本文使用java api来实现 kafka生产者,组合服务器消费者Maven依赖 <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clie...原创 2020-01-04 12:04:30 · 517 阅读 · 0 评论 -
Kafka-搭建
Kafka搭建Kafka核心概念BrokerTopicPartitionProducerConsumerConsumer GroupKafka安装Setting up a multi-broker clusterfault-toleranceKafka核心概念Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。Kafka的目的是通过Hadoop的并行...原创 2020-01-03 11:11:03 · 446 阅读 · 0 评论 -
Flume-常见source、channel、sink
常见Flume-source、channel、sink详解Flume SourcesAvro SourceExec SourceSpooling Directory SourceKafka SourceFlume SourcesAvro SourceListens on Avro port and receives events from external Avro client strea...原创 2020-01-02 23:20:57 · 2268 阅读 · 1 评论 -
Flume-配置解析
Flume-配置解析官网说明官网说明Each component (source, sink or channel) in the flow has a name, type, and set of properties that are specific to the type and instantiation. For example, an Avro source needs a h...原创 2020-01-01 16:57:49 · 432 阅读 · 0 评论 -
Flume-安装配置
Flume入门手记官方说明安装说明新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入官方说明Flume is ...原创 2019-12-31 11:13:32 · 119 阅读 · 0 评论