
spark
废物点心777
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【spark】spark streaming 和flume、kafka整合
文章目录一、Spark Streaming整合flumePoll方式Push方式二、Spark Streaming整合kafkaKafkaUtils.createDstreamKafkaUtils.createDirectStreamStreamingContext.getOrCreate一、Spark Streaming整合flumeflume作为日志实时采集的框架,可以与SparkStre...原创 2020-04-29 17:05:00 · 843 阅读 · 0 评论 -
【spark】spark streaming介绍 包括Dstream介绍 及Dstream实战
文章目录Spark Streaming概述Spark Streaming特性Spark Streaming原理介绍DstreamDStream相关操作transformationOutput OperationsDStream操作实战一、 SparkStreaming接受socket数据,实现单词计数WordCount二、SparkStreaming接受socket数据,实现所有批次单词计数结果累...原创 2020-04-29 16:52:21 · 1210 阅读 · 0 评论 -
【spark】spark SQL概述 RDD、DataFrame及DataSet开发 相互转换 以及sparksql和mysql数据转换
文章目录一、sparksql概述二、sparksql四大特性三、DataFrame简介DataFrame与RDD的区别DataFrame与RDD的优缺点读取数据源创建DataFrame读取json文件创建DataFrame四、DataFrame常用操作DSL风格语法SQL风格语法六、DataSetDataFrame、DataSet、RDD的区别DataFrame与DataSet互相转换创建Data...原创 2020-04-29 16:35:42 · 885 阅读 · 0 评论 -
【spark】spark计算模型RDD&算子介绍&任务调度&容错机制checkpoint
文章目录RDD弹性分布式数据集RDD概述RDD五大属性创建RDDRDD编程APIRDD的算子分类TransformationActionRDD常用的算子操作RDD的依赖关系窄依赖宽依赖Lineage(血统)RDD的缓存DAG的生成Spark任务调度DAGSchedulerTaskSchedulerRDD容错机制之checkpointcheckpoint是什么checkpoint原理机制Spark运...原创 2020-04-15 17:35:20 · 1052 阅读 · 0 评论 -
【spark】Spark概述 及 集群部署
文章目录Spark概述什么是Spark为什么要学SparkSpark特点Spark集群安装下载spark安装包规划安装目录解压安装包重命名目录修改配置文件拷贝配置到其他主机配置spark环境变量启动spark停止sparkspark的web界面Spark HA高可用部署Spark角色介绍Spark概述什么是Spark(官网:http://spark.apache.org)Spark是一种...原创 2020-04-15 13:50:14 · 389 阅读 · 0 评论 -
【spark】spark集群的安装和spark shell测试wordcount
文章目录一、安装spark1、已解spark的压缩包2、进入~/spark/conf里配置spark-env.sh,改文件包含sark的各种运行环境3、配置slaves文件,同样复制一份 .template4、将配置好的spark分发给所有slave(这里也就是node01 node02)5、配置spark环境变量6、启动spark,停止spark7、看下work的状态8、通过web访问spark...原创 2020-03-04 00:21:33 · 549 阅读 · 1 评论