spark
谦芊珺
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark学习(一)基础数据预处理
本文写在进行spark学习的过程中,学习过程主要参考 http://blog.youkuaiyun.com/u013719780/article/details/517687201、导包from pyspark import SparkContext2、提交脚本 spark-submit pythonapp.py3、导入数据user_data = sc.textFile('/路径/ml-100k/u.us原创 2017-07-28 00:30:47 · 3856 阅读 · 0 评论 -
特征提取
特征类型:数值型、类型型、文本型原创 2017-07-28 10:54:25 · 616 阅读 · 0 评论 -
MLlib
1、归一化from pyspark.mllib.feature import Normalizernormlizer = Normalizer()vector = sc.parallelize([x])normalized_x_mllib = normlizer.transform(vector).first().toArray()原创 2017-07-28 10:59:02 · 533 阅读 · 0 评论 -
推荐系统
参考:http://www.cnblogs.com/pinard/p/6364932.html 参考:http://blog.youkuaiyun.com/u013719780/article/details/517750471、导入数据rawData = sc.textFile("/Users/youwei.tan/ml-100k/u.data")2、拆成字段rawRatings = rawData.ma原创 2017-07-28 11:21:19 · 452 阅读 · 0 评论
分享