
Spark Python 机器学习与大数据实践
文章平均质量分 78
SanFanCSgo
这个作者很懒,什么都没留下…
展开
-
Python Spark RDD
Python Spark RDDRDD(Resilient Distributed Dataset)弹性分布式数据集是Spark的核心,RDD能与其他系统兼容,可以导入外部存储系统的数据集,例如HDFS、HBase或其他Hadoop数据源。RDD的三种基本运算transformation“转换”运算:RDD执行“转换”运算会产生另外一个RDD;RDD具有lazy特性,“转换”运算并不...原创 2018-09-08 14:13:58 · 2303 阅读 · 0 评论 -
Python Spark MLlib之决策树多分类
数据准备选择UCI数据集中的Covertype数据集(http://archive.ics.uci.edu/ml/datasets/Covertype)进行实验。点击查看数据集详细信息。1、下载数据集并打开终端输入命令 cd ~/pythonwork/PythonProject/data wget http://archive.ics.uci.edu/ml/machine-le...原创 2018-09-13 13:58:48 · 4247 阅读 · 0 评论 -
Python Spark MLlib 决策树分类
准备数据StumbleUpon Evergreen数据,来源于Kaggle中的一个题目StumbleUpon Evergreen Classification Challenge。StumbleUpon 是一个个性化推荐引擎,根据用户的兴趣行为给用户推荐网页,而有些网页内容是即时性(ephemeral)的,比如新闻股票网页(用户短暂感兴趣),有些网页是长久性的(evergreen)如体育,...原创 2018-09-10 18:39:20 · 3223 阅读 · 4 评论 -
基于Python Spark的推荐系统
ALS推荐算法Spark MLlib中实现了ALS(Alternating Least Squares)基于协同过滤的推荐算法。MovieLens数据集MovieLens数据集收集了大量用户对不同电影的评分,详情见数据集官网http://grouplens.org/datasets/movielens。下载ml-100k数据至工作目录中,终端输入命令: mkdir -p ...原创 2018-09-10 10:02:25 · 10251 阅读 · 0 评论 -
Python Spark MLlib之朴素贝叶斯分类
数据准备和决策树分类一样,依然使用StumbleUpon Evergreen数据进行实验。Local模式启动ipython notebook cd ~/pythonwork/ipynotebook PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" MASTER=local[*] pyspark...原创 2018-09-12 20:43:42 · 1917 阅读 · 0 评论 -
Python Spark MLlib之SVM支持向量机
数据准备和决策树分类一样,依然使用StumbleUpon Evergreen数据进行实验。Local模式启动ipython notebook cd ~/pythonwork/ipynotebook PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" MASTER=local[*] pyspark...原创 2018-09-12 11:56:00 · 3199 阅读 · 1 评论 -
Pycharm(Linux系统)配置Python Spark(导入pyspark)
Linux下配置Python Spark 集成开发环境PycharmPycharm下载:JetBrain官网http://www.jetbrains.com/pycharm/download/#section=linux 将下载之后的文件pycharm-community-2018.2.3.tar.gz移至主文件夹下进行解压安装: tar xvf pycharm-community...原创 2018-09-09 13:29:14 · 6057 阅读 · 1 评论 -
Spark、Python spark、Hadoop简介
Spark、Python spark、Hadoop简介Spark简介1、Spark简介及功能模块Spark是一个弹性的分布式运算框架,作为一个用途广泛的大数据运算平台,Spark允许用户将数据加载到cluster集群的内存中储存,并多次重复运算,非常适合用于机器学习算法。Spark的核心是RDD(Resilient Distributed Dataset)弹性分布式数据集,...原创 2018-09-05 18:10:21 · 6806 阅读 · 0 评论 -
Python Spark MLlib之逻辑回归
数据准备和决策树分类一样,依然使用StumbleUpon Evergreen数据进行实验。Local模式启动ipython notebook cd ~/pythonwork/ipynotebook PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" MASTER=local[*] pyspark...原创 2018-09-11 18:16:43 · 3240 阅读 · 0 评论 -
使用 Spark 创建WordCount
使用spark进行WordCount1、终端输入命令,创建目录~/pythonwork/ipynotebook/data及复制文件/usr/local/spark/LICENSE(对LICENSE做WordCount) mkdir -p ~/pythonwork/ipynotebook/data cp /usr/local/spark/LICENSE ~/pythonwork/ipyn...原创 2018-09-08 14:58:53 · 468 阅读 · 0 评论 -
Python Spark MLlib 之决策树回归分析
数据准备选择UCI数据集中的Bike Sharing数据集(http://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset)进行实验。场景:预测共享单车租借数量。 特征:季节、月份、时间(0~23)、节假日、星期、工作日、天气、温度、体感温度、湿度、风速 预测目标:每一小时的单车租用数量1、下载数据集并打开终端输入命令 ...原创 2018-09-13 18:21:29 · 3947 阅读 · 1 评论