Spark学习笔记
自学笔记
throws-Exception
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark学习笔记(五)——Flume日志收集、Flume安装配置、工作流程、avro source、taildir source、HDFS sink、拦截器(Interceptors)
FlumeFlume日志收集一、Apache Flume简介二、Flume架构三、Flume安装配置1、安装2、首次测试四、Flume学习1、Flume工作流程2、Flume构成五、Source1、exec source2、spooling directory source3、http source4、avro source5、taildir source六、channel七、Sink1、avro sink2、HDFS sink3、hive sink八、Flume Sink组九、拦截器(Intercepto原创 2020-08-20 19:37:03 · 966 阅读 · 0 评论 -
Spark学习笔记(四)——SparkStreaming、DStream、Receivers、编程实例、整合Flume、整合Kafka、整合Spark SQL
Spark Streaming基于Spark Streaming的流数据处理和分析一、流是什么二、Spark Streaming1、简介2、流数据处理框架3、内部工作流程三、StreamingContext1、创建2、入门 wordcount3、transform包装四、DStream1、概念2、Input DStreams与接收器(Receivers)3、Dstream创建(内建流式数据源)4、DStream支持的转换算子五、SparkStreaming编程实例1、HDFS2、Spark Streamin原创 2020-08-20 12:21:57 · 482 阅读 · 0 评论 -
Spark学习笔记(三)——SparkSQL(DataSet、DataFrame、hive集成、连接mysql)
Spark SQLSpark SQL精华及与Hive的集成一、Spark SQL简介1、SQL on Hadoop2、Spark SQL前身3、Spark SQL架构4、Spark SQL运行原理5、Catalyst优化器二、Spark Dataset API1、创建2、Dataset3、演练三、Spark DataFrame API1、介绍2、对比3、创建4、常用操作5、RDD和DataFrame转换四、Spark SQL操作外部数据源1、Parquet文件2、集成hive3、RDBMS表 Spark S原创 2020-08-17 09:04:31 · 550 阅读 · 0 评论 -
Spark学习笔记(一)——基础和架构、安装配置、Spark架构设计、Spark API、RDD、RDD操作、RDD转换算子、RDD动作算子
Spark基础和架构Spark基础和架构一、Spark和Hadoop的比较二、Spark优势三、Spark技术栈四、Spark环境部署1、安装配置2、测试五、Spark架构设计1、运行架构2、运行基本流程3、核心组件六、Spark API1、SparkContext2、SparkSession3、RDD核心七、RDD1、RDD概念2、五大特性3、RDD与DAG4、RDD编程流程5、RDD的创建(1)使用集合创建RDD(2)通过加载文件产生RDD(3)创建PairRDD的方法(4)其他创建RDD的方法八、RD原创 2020-08-10 19:21:32 · 1221 阅读 · 0 评论 -
Spark学习笔记(二)——分布式计算原理
Spark分布式计算原理 一、Spark WordCount运行原理 图中过程解析 A:val lines: RDD[String] = sc.textFile("hdfs"://) //这行代码会生成两个RDD(HadoopRDD、MapPartitionsRDD) //将内容分词后压平 B:val words: RDD[String] = lines.flatMap(.split(" ")) //这行代码通过flatMap生成一个新的RDD //将单词和1组合到一起 C:val pairs: RDD[原创 2020-08-10 19:25:52 · 1185 阅读 · 0 评论
分享