
pyspark
泛泛之素
君子不器
展开
-
从0开始学pyspark(一):ubuntu pyspark运行环境配置
最近在研究spark,虽然windows下也能安装运行spark(亲测可行,但是开放9000端口还是连接不上docker上部署的hdfs),但是在windows下使用多有不便,于是安装了双系统(网上教程很多),如果在安装过程中出现卡死问题,可以看看这篇能不能解决 https://blog.youkuaiyun.com/tonydz0523/article/details/80532615在ubuntu上配...原创 2018-06-01 10:48:58 · 7243 阅读 · 4 评论 -
从0开始学pyspark(九):使用pyspark.ml.regression模块预测波士顿房价
数据下载:数据为kaggle上的关于波士顿房价预测的数据,地址:https://www.kaggle.com/c/boston-housing/data也可在这里下载:https://github.com/ffzs/dataset/tree/master/boston数据准备:相关参数:CRIM-- 城镇人均犯罪率。ZN - 占地面积超过25,000平方英尺的住宅用地比例。IN...原创 2018-11-08 22:07:55 · 6218 阅读 · 0 评论 -
从0开始学习pyspark(八):使用pyspark.ml.classification模块对蘑菇进行分类
数据下载:数据为kaggle上的关于蘑菇分类的数据,地址:https://www.kaggle.com/uciml/mushroom-classification也可在这里下载:https://github.com/ffzs/dataset/blob/master/mushrooms.csv数据准备:本数据集用于分类毒蘑菇和可食用蘑菇,共22个特征值,其中特征描述都是字符,用于机器学习的话...原创 2018-11-06 22:25:00 · 7469 阅读 · 10 评论 -
从0开始学pyspark(七):pyspark-ML 部分之 转换器(Transformer)学习
pyspark.ml.feature.Binarizer(self, threshold=0.0, inputCol=None, outputCol=None)根据指定的阈值将连续变量转换为对应的二进制# 创建sessionfrom pyspark.sql import SparkSession spark = SparkSession.builder.appName('learn_ml'...原创 2018-10-16 21:37:58 · 5910 阅读 · 0 评论 -
从0开始学pyspark(六):数据读写
详细看官网:http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrameReader读取本地hdfs文件from pyspark.sql import SparkSession#创建sessionspark = SparkSession.builder.appName('read...原创 2018-09-29 16:03:27 · 3800 阅读 · 1 评论 -
从0开始学pyspark(五):pyspark-sql-functions部分学习
官方文档:http://spark.apache.org/docs/latest/api/python/pyspark.sql.html 我用jupyter notebook 做的总结,有时间再粘到博客吧,需要的先github上看吧,对你有帮助别忘了点星哈: https://github.com/ffzs/pyspark_learning/blob/master/pyspark-sql-f...原创 2018-06-09 09:37:40 · 4263 阅读 · 1 评论 -
从0开始学pysaprk(四):pyspark-sql-DataFrame部分学习
官方文档:http://spark.apache.org/docs/latest/api/python/pyspark.sql.html 我用jupyter notebook 做的总结,有时间再粘到博客吧,需要的先github上看吧,对你有帮助别忘了点星哈: https://github.com/ffzs/pyspark_learning/blob/master/pyspark-sql-dat...原创 2018-06-09 09:31:45 · 2482 阅读 · 0 评论 -
从0开始学pysaprk(三):pyspark-RDD部分学习
官方文档:http://spark.apache.org/docs/latest/api/python/pyspark.html 我用jupyter notebook 做的总结,有时间再粘到博客吧,需要的先github上看吧,对你有帮助别忘了点星哈: https://github.com/ffzs/pyspark_learning/blob/master/pyspark-RDD.ipynb...原创 2018-06-09 09:27:24 · 2696 阅读 · 4 评论 -
从0开始学pyspark(二):ubuntu docker搭建Hadoop集群环境
spark要配合Hadoop的hdfs使用,然而Hadoop的特点就是分布式,在一台主机上搭建集群有点困难,百度后发现可以使用docker构建搭建,于是开搞: github项目:https://github.com/kiwenlau/hadoop-cluster-docker 参考文章: https://www.jianshu.com/p/b75f8bc9346ddocker安装文章中...原创 2018-06-01 12:10:30 · 3132 阅读 · 0 评论 -
从0开始学pyspark(十):使用pyspark.ml.clustering模块对商场顾客聚类
数据下载:数据为kaggle上的关于商场客户的数据,地址:https://www.kaggle.com/vjchoudhary7/customer-segmentation-tutorial-in-python数据准备:数据集很小,四个特征值:性别,年龄,收入能力,消费能力,这里我们用收入能力和消费能力两项对客户进行聚类处理from pyspark.sql import SparkSess...原创 2018-11-16 19:38:22 · 8881 阅读 · 9 评论