
Data Mining
文章平均质量分 59
Lauhoman
微信:tempo_o
展开
-
在Mac OSX上配置PySpark
在Mac OSX上配置PySpark2016-04-20 22:03:28安装环境系统:OSX - 10.11.1 (15B42)内核版本:Darwin Kernel Version 15.0.0Python版本:2.7.10GCC版本:4.2.1引言上一篇文章我已经在Linux虚拟机里面配置了PySpark了,这里按照之前的步骤应该就可以了。但是OSX上面有一些细微配置不太一样。配置过程1.下载预原创 2016-04-20 22:06:06 · 11056 阅读 · 0 评论 -
在Linux上配置PySpark
在Linux上配置PySpark2016-04-20 20:58:49配置环境系统:Debian - 8.3.0内核版本:3.16.0-4-amd64Python版本:2.7.9GCC版本:4.9.2JDK版本:1.8.0引言因为想要在OSX上面安装PySpark(Spark的Python版本),为了保证安装过程顺利,所以我决定现在Linux虚拟机里面安装一遍,了解一下过程和注意的问题。配置过程1.原创 2016-04-20 21:04:11 · 12847 阅读 · 2 评论 -
如何将PySpark导入Python
如何将PySpark导入Python问题1、ImportError: No module named pyspark现象:已经安装配置好了PySpark,可以打开PySpark交互式界面;在Python里找不到pysaprk。解决方法:a.使用findspark使用pip安装findspark:pip install findspark;在py文件中引入findspark:>>> impo原创 2016-07-13 10:55:59 · 25410 阅读 · 6 评论 -
Spark学习笔记#1-快速入门
Spark学习笔记#1-快速入门之前我已经安装配置好了PySpark,这里就按照Spark官网上的Quick Start来快速入门。这篇文章就当是Spark官网Doc的一个翻译和测试记录。目录使用Spark Shell进行交互式分析 基本更多基于RDD的操作缓存独立的程序快速入门完之后的去向这个教程提供了一个使用Spark的快速教程。我们将会首先通过Spark的交互式Shell介绍AP原创 2016-07-13 16:45:56 · 2138 阅读 · 3 评论 -
利用Python的Matplotlib库绘制CDF(累积分布函数)图像
在实习的时候碰到了很多CDF(累积分布函数)图像,想自己绘制一下CDF但发现Excel好像没有绘制曲线图的功能,所以正好学习一下Python图标绘制库Matplotlib的使用。有关CDF的定义可以参考维基百科词条【Cumulative Distribution Function】原始数据把需要计算的原始数据用逗号分隔开,保存为csv文件,每一行代表一条CDF曲线。比如有丈量的瓷砖的长和宽数据,将长原创 2016-10-21 14:10:45 · 42682 阅读 · 2 评论