
spark_scala
undergrowth
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark 2.2.0学习笔记1之概述
spark 2.2.0学习笔记1之概述参考https://github.com/databricks/learning-sparkSpark快速大数据分析.pdf概念基于内存—-快速/通用—-计算Spark 是一个用来实现快速而通用的集群计算的平台生态2009年伯克利分校—-基于mapreduce—-使用scala编写组件上层组件—-spark sql/spark streaming原创 2017-12-19 20:17:56 · 394 阅读 · 0 评论 -
spark 2.2.0学习笔记2之LocalWordCountDemo
spark 2.2.0学习笔记2之LocalWordCountDemoInfo底层—-集群管理器local独立调度器—-Spark自带/默认Hadoop YARNApache Mesos大致源码org.apache.spark.SparkContext#createTaskScheduler 根据master创建TaskScheduler与SchedulerBackend创建DAGS原创 2017-12-19 20:27:15 · 576 阅读 · 0 评论 -
scala 2.11.7学习笔记1之概述
scala 2.11.7学习笔记1之概述参考http://www.runoob.com/scala/scala-file-io.htmlhttp://www.jianshu.com/p/e0fc0ab7a9d2http://blog.youkuaiyun.com/fjse51/article/details/52152362Scala编程中文版(33章全).pdf概念名词可扩展语言/是面向对象与函数原创 2017-12-19 20:28:00 · 490 阅读 · 0 评论 -
spark 2.2.0学习笔记3之SparkRDDDemo
spark 2.2.0学习笔记3之SparkRDDDemoInfo键值对RDD(pair RDD)—-用来进行聚合运算/元素为元组reduceByKey—-通过key 进行操作—-返回新的rddgroupByKey—-进行分组mapValues/flatMapValues—-应用值keys/values/sortByKey—-返回key value sortjoin—-对两个rdd进行内连原创 2017-12-21 22:13:18 · 533 阅读 · 0 评论 -
spark 2.2.0学习笔记4之SparkSQLDemo
spark 2.2.0学习笔记4之SparkSQLDemoInfospark sql—-Spark 用来操作结构化/半结构化数据的程序包从各种数据源读取数据/支持各种方式的sql查询 hive查询支持udf(用户自定义函数)SchemaRDD(DataFrame)—-存放Row 对象的RDD,每个Row 对象代表一行记录 SELECT SUM(user.favouritesCount)原创 2017-12-23 00:20:36 · 933 阅读 · 0 评论 -
spark 2.2.0学习笔记5之SparkStreamingWordCountDemo
spark 2.2.0学习笔记5之SparkStreamingWordCountDemoInfospark streaming—-Spark 提供的对实时数据进行流式计算的组件/微批次架构Spark Streaming 使用离散化流(discretized stream)作为抽象表示,叫作DStreamDStream 是随时间推移而收到的数据的序列 一种是转化操作(transformation原创 2017-12-24 22:09:42 · 315 阅读 · 0 评论 -
apache beam 2.6.0学习笔记1之WordCount与源码解析
apache beam 2.6.0学习笔记1之WordCount与源码解析参考https://beam.apache.org/get-started/quickstart-java/https://blog.youkuaiyun.com/ffjl1985/article/details/78055152http://www.infoq.com/cn/articles/apache-beam-...原创 2018-08-17 17:44:59 · 711 阅读 · 0 评论