
Applied Data Analysis
wintersense
这个作者很懒,什么都没留下…
展开
-
理解spark中的RDD
RDD(Resilient Distributed Dataset),全称弹性分布式数据集,是Spark对数据进行的核心抽象概念。我们可以将RDD理解为一个不可变的分布式对象集合,他可以包含Python、Java、Scala 中任意类型的对象,甚至是用户自定义的对象。Spark中的所有操作都是在RDD进行的,包括创建RDD,转化RDD跟调用RDD。RDD创建Spark有两种方法创建RDD:读取一个外部数据集,或在从程序中读取一个对象集合(比如list 和set)。# 读取一个外部数据集.转载 2020-06-30 04:47:42 · 334 阅读 · 0 评论 -
【matplotlib】plot()kind参数表
————————————————版权声明:本文为优快云博主「Jinlong_Xu」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.youkuaiyun.com/Jinlong_Xu/article/details/70175107...原创 2020-05-14 00:05:27 · 2719 阅读 · 0 评论 -
应用数据分析(1):熟悉
import numpy as npimport pandas as pdimport matplotlib.pyplot as pltt = np.linspace(0,1,200)with plt.xkcd()://波浪的效果 for i in range(1,20): plt.plot(t, np.sin(2*np.pi*t-t[10*i]))plt.show();np.linspace( start, stop, num=50,.原创 2020-05-12 23:28:21 · 166 阅读 · 0 评论