
spark
文章平均质量分 66
左VJ
其实,工作也挺有趣的。
展开
-
Spark 2.2.1 官方文档翻译 RDD编程指南(RDD Programming Guide)
本文翻译Spark官方文档,版本为2.2.1。章节目录如下:概览通过编写应用程序使用Spark链接到Spark初始化Spark通过Spark-Shell使用Spark弹性分布式数据集RDDparallelizing 集合外部数据集RDD操作基本操作将函数传递给Spark了解闭包例子本地或集群模式打印RDD的翻译 2018-01-22 10:39:59 · 1568 阅读 · 0 评论 -
Spark2.2.1官方文档翻译 快速开始(Quick Start)
http://spark.apache.org/docs/latest/quick-start.html#more-on-dataset-operations使用Spark Shell进行交互式分析基础更多DataSet 操作缓存Spark应用程序更多本教程提供了使用Spark的快速入门教程。我们将首先通过Spark的交互式shell(Python或Scala)介翻译 2018-01-21 01:08:34 · 2042 阅读 · 0 评论 -
Spark进阶之shuffle深入解析
第37课:Spark中Shuffle详解及作业 http://www.blog.youkuaiyun.com/zhumr/article/details/52540994Spark Shuffle原理、Shuffle操作问题解决和参数调优 http://www.cnblogs.com/arachis/p/Spark_Shuffle.html美团Spark性能优化指南——基础篇 https://t...原创 2018-03-28 11:08:34 · 343 阅读 · 0 评论 -
spark streaming 根据文件内容自定义文件名输出,并实现文件内容追加
转载自http://blog.youkuaiyun.com/qq_19917081/article/details/56841299spark streaming 从kafka拉取数据,根绝消息内容,需要将不容的消息放到不同的文件夹下,大致内容为 从消息中拆分出域名,不同域名分不到不同目录,域名下按消息中的时间分年月日目录,底层目录下自定义文件个数,实现追加 由于sparkstreaming ...转载 2018-03-28 11:09:32 · 2471 阅读 · 2 评论