
spark
TechFlow
公众号:TechFlow
展开
-
spark | 手把手教你用spark进行数据预处理
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是spark专题的第七篇文章,我们一起看看spark的数据分析和处理。过滤去重在机器学习和数据分析当中,对于数据的了解和熟悉都是最基础的。所谓巧妇难为无米之炊,如果说把用数据构建一个模型或者是支撑一个复杂的上层业务比喻成做饭的话。那么数据并不是“米”,充其量最多只能算是未脱壳的稻。要想把它做成好吃的料理,必须要对原生的稻谷进行处理。但是处理也并不能乱处理,很多人做数据处理就是闷头一套三板斧。去空值、标准化还有one-hot,这一套流原创 2020-07-02 12:13:57 · 2561 阅读 · 0 评论 -
想学spark但是没有集群也没有数据?没关系,我来教你白嫖一个!
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是spark专题的第六篇文章,这篇文章会介绍一个免费的spark平台,我们可以基于这个平台做一些学习实验。databricks今天要介绍的平台叫做databricks,它是spark的创建者开发的统一分析平台。单凭spark创建者这几个字大家应该就能体会到其中的分量,其中集成了Scala、Python和R语言的环境,可以让我们在线开发调用云端的spark集群进行计算。最最关键的是,它提供免费的社区版本,每个开发者都可以获得15GB内原创 2020-05-24 09:08:49 · 576 阅读 · 0 评论 -
spark是怎么从RDD升级到DataFrame的?
今天是spark专题的第五篇,我们来看看DataFrame。用过Python做过机器学习的同学对Python当中pandas当中的DataFrame应该不陌生,如果没做过也没有关系,我们简单来介绍一下。DataFrame翻译过来的意思是数据帧,但其实它指的是一种特殊的数据结构,使得数据以类似关系型数据库当中的表一样存储。使用DataFrame我们可以非常方便地对整张表进行一些类似SQL的一些复杂的处理。Apache Spark在升级到了1.3版本之后,也提供了类似功能的DataFrame,也就是大名鼎鼎的原创 2020-05-11 07:46:28 · 379 阅读 · 0 评论 -
spark中的pair rdd,看这一篇就够了
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是spark专题的第四篇文章,我们一起来看下Pair RDD。定义在之前的文章当中,我们已经熟悉了RDD的相关概念,也了解了RDD基本的转化操作和行动操作。今天我们来看一下RDD当中非常常见的PairRDD,也叫做键值对RDD,可以理解成KVRDD。KV很好理解,就是key和value的组合,比如Python当中的dict或者...原创 2020-04-26 19:54:35 · 1207 阅读 · 0 评论 -
spark——详解rdd常用的转化和行动操作
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是spark第三篇文章,我们继续来看RDD的一些操作。我们前文说道在spark当中RDD的操作可以分为两种,一种是转化操作(transformation),另一种是行动操作(action)。在转化操作当中,spark不会为我们计算结果,而是会生成一个新的RDD节点,记录下这个操作。只有在行动操作执行的时候,spark才会从头开始计...原创 2020-04-19 20:57:59 · 1729 阅读 · 0 评论 -
spark——spark中常说RDD,究竟RDD是什么?
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是spark专题第二篇文章,我们来看spark非常重要的一个概念——RDD。在上一讲当中我们在本地安装好了spark,虽然我们只有local一个集群,但是仍然不妨碍我们进行实验。spark最大的特点就是无论集群的资源如何,进行计算的代码都是一样的,spark会自动为我们做分布式调度工作。RDD概念介绍spark离不开RDD,R...原创 2020-04-12 21:21:31 · 478 阅读 · 0 评论 -
手把手教你在本机安装spark
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是spark系列的第一篇文章。最近由于一直work from home节省了很多上下班路上的时间,加上今天的LeetCode的文章篇幅较小,所以抽出了点时间加更了一篇,和大家分享一下最近在学习的spark相关的内容。看在我这么拼的份上,求各位老爷赏个转发。。。PS:本专题不保证每周更新,毕竟不是每周都能加更。。。言归正传,sp...原创 2020-04-05 12:17:17 · 292 阅读 · 0 评论