
GraphX
MG羽白
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark GraphX 学习笔记——预测社交圈
数据来源:Kaggle 数据网址:https://www.kaggle.com/c/learning-social-circles/data 实验目的:读取每个egonet文件内容,根据这些朋友及朋友间的连接创建一个图,找出图中的连通组件,输出社交圈结果 参考书籍:spark GraphX实战 编程语言:Scala // 1. 读取数据,生成pairRDD val egonets = ...原创 2019-04-17 10:41:44 · 2997 阅读 · 2 评论 -
Spark GraphX 学习笔记——Dijstra最短路径算法
1. Scala中的Dijstra最短路径算法 import org.apache.spark.graphx._ def dijkstra[VD](g:Graph[VD,Double], origin:VertexId): Graph[(VD,Double), Double] = { /** * 1. 初始化 * 遍历图的所有节点 * 变为(false, Double.Max...原创 2019-04-22 14:54:14 · 2555 阅读 · 0 评论 -
Spark GraphX 学习笔记——旅行推销员问题:贪心算法
旅行推销员问题: 在一个无向图中找到一个经过每一个顶点的最短路径 1. 贪心算法 对于旅行推销员问题而言,贪心算法是最简单的,即在每次迭代时选择最接近的最短边,但不做进一步搜索 2. 贪心算法优化 贪心算法可在不用增加太多代码的情况下,用不同的起始顶点重新运行整个算法,不断迭代,挑选出一个到达所有顶点并且最短的解决方案,用这种方法可以改善贪心算法。 3. 贪心算法scala代码实现:...原创 2019-04-22 15:32:03 · 2204 阅读 · 1 评论 -
Spark GraphX 学习笔记——影片推荐:SVDPlusPlus (监督学习)
影片推荐: SVDPlusPlus (监督学习) 推荐系统就是监督学习的一个例子,因为它提供了 一些影片评分的数据,并要求预测未知的用户对影片的评分。一般有两种主流的方法来解决这个问题。 1)第一种主流方法比较直接和简单 : 对于需要处理的用户 , Pat, 找到和他有相同爱好的其他用户,然后给 Pat 推荐这些用户喜欢的影片。这就是 Netflix 公司早期的推荐策略,有时被称为邻居...原创 2019-04-23 19:18:47 · 2769 阅读 · 0 评论 -
Spark GraphX 学习笔记——LDA实战:路透社电报新闻分类
1. 隐含狄利克雷分布(Latent Dirichlet allocation,LDA) 1)LDA 属于无监督学习,所有的主题并不需要事先指定,是在聚类过程中逐渐形成的 。 2)MLlib 的 LDA 使用了 GraphX 来提高计算效率,尽管它的输入和输出都不是图。 3)LDA 是基于隐含变量的,在这里隐含变量指的是算法自动推断出来的“主题”。这些主题由一些与之关联的单词描述,但并...原创 2019-04-23 19:20:40 · 1703 阅读 · 0 评论 -
Spark GraphX 学习笔记——垃圾信息检测:LogisticRegressionWithSGD
垃圾信息检测:LogisticRegressionWithSGD (Stochastic Gradient Descent) 1)构建训练集的图 import org.apache.spark.graphx._ import org.apache.spark.mllib.classification.LogisticRegressionWithSGD val trainV = sc.ma...原创 2019-04-23 19:22:30 · 1847 阅读 · 0 评论