
pyspark
sooner高
DeepFaceLab作者, Tensorflow & PyTorch contributor,深度学习小学生
展开
-
【只用python】Spark Programming Guide 1.6.0翻译(1)
最近写spark streaming程序,对于一个非计算机专业出身的渣渣,对java真的累觉不爱。虽然,用scala进行开发也很方便,但是为了帮助只会python,或者说习惯用python做后续处理任务的同学来说,我打算做一个基于python的spark streaming/SQL等教程。这篇文章是将官方文档翻译成中文,并加上测试的例子。概要 (Overview)Spark Streaming是对原创 2017-06-09 10:42:12 · 775 阅读 · 0 评论 -
Oozie教程(1)——实现你自己的Hadoop/Spark作业工作流
前言Oozie是什么呢?按官方说法:Oozie是一个基于工作流引擎的服务器,其中每个工作流的任务可以是Hadoop的Map/Reduce作业或者Pig作业等。Oozie是运行于Java servlet容器上的一个java web应用。Oozie的目的是按照DAG(有向无环图)调度一系列的Map/Reduce或者Pig任务。Oozie 工作流由hPDL(Hadoop Process Definitio原创 2017-07-06 14:02:50 · 11593 阅读 · 0 评论 -
深入研究 spark 运行原理之 job, stage, task
前言 本文转载自李涛涛的博客本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的笔记记录,所以一切以能够理解为主,没有必要的细节就不会记录了,而且文中有时候会出现英文原版文档,只要不影响理解,都不翻译了。若想深入了解,最好阅读参考文章和官方文档。其次,本系列是基于目前最新的转载 2017-07-25 19:54:30 · 1570 阅读 · 0 评论 -
ReduceByKey算子理解
前言 最近经常使用到reduceByKey这个算子,想着结合*ByKey算子和stage划分一起总结一下,所以沉下心来仔细过了一遍相关的博客和帖子,在此整体过一遍这个算子,那么我们开始:国外的大牛一上来给出这么一句话,个人感觉高度概括了reduceByKey的功能:Spark RDD reduceByKey function merges the values for each key usi原创 2017-07-25 20:12:01 · 5902 阅读 · 0 评论 -
Spark 核心算子:combineByKey()
复习rdd的概念的时候,发现像reduceByKey、groupByKey这些算子的都是基于combineByKey来实现的高级算子。虽然在《Learning spark》一书中提到,自制的分组统计速度比spark内置的速度慢,但是熟悉这套流程也是非常有益的。有助于深入的理解spark中aggregate的原理。简单介绍combineByKey()是最通用的对key-value型rdd进行聚集操作原创 2017-09-09 17:45:12 · 1830 阅读 · 1 评论