
Spark
文章平均质量分 57
空你个指针啊
别忘了你的星辰大海
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark中的Pi Estimation
源码思路源码from pyspark.sql import SparkSessionfrom random import randomfrom operator import add# Pi Estimationdef inside(p): x, y = random(), random() # 随机生成x,y坐标,在圆内或圆上则返回True return x*原创 2017-07-11 15:31:53 · 723 阅读 · 0 评论 -
协同过滤算法
协同过滤算法简介协同过滤算法常用语推荐系统中,旨在填补用户项目关联矩阵的缺失条目,spark.mllib目前支持基于模型的协同过滤,其中用户和产品由一小组潜在因素描述,可用于预测缺失的条目。spark.mllib使用交替最小二乘法(ALS)算法来学习这些潜在因素。原理(先占位,等我这两天搞懂了就填上)低秩矩阵最小二乘法Python实现参数 参数 含义 numBlocks 用于并行计算原创 2017-07-12 20:03:07 · 779 阅读 · 0 评论 -
spark-submit 参数
Spark standalone with cluster deploy mode onlySpark standalone and YARN onlyYARN-only 参数 含义 –master MASTER_URL spark://host:port, mesos://host:port, yarn, or local –deploy-mode DEPLOY_MODE原创 2017-07-06 11:18:47 · 517 阅读 · 0 评论 -
K-Means及Spark实现Kmeans算法
K-means步骤关键步骤聚类个数K的选择初始聚类中心点的选择MLlib的K-means实现参数Spark_K-Means_PythonK-means步骤选择K个点作为初始聚类中心计算其余所有点到聚类中心的距离,并把每个点划分到离它最近的聚类中心所在的聚类中去。计算距离常用欧几里得距离公式,也叫欧氏距离。查看距离的计算方法重新计算每个聚类中所有点的平均值,并将其作为新的聚类中心点原创 2017-07-12 15:48:48 · 10711 阅读 · 1 评论