
算法
woloqun
这个作者很懒,什么都没留下…
展开
-
文章相似度计算
先扯闲扯下pyspark环境的问题前端时间在帮助算法组的同学使用spark跑一些模型,因为那边的同学没有使用过spark,且不会scala和java,而他们的诉求是使用python跑一些spark的任务;所以我这边就协助配置了一下python on spark的环境,这个环境配置起来还是挺费劲的;python的环境没有使用conda[为啥没用?个人习惯;但需要注意的是,如果使用conda的话python的版本必须低于3.8],我使用的是自己编译的python-3.6,而且每台hadoop每台机器都需.原创 2020-10-19 14:30:11 · 1722 阅读 · 1 评论 -
使用spark tf-idf 提取文章的关键字
HashingTF无法获得词索引关系,所以tf需要替换成CountVectorizer,具体看代码from pyspark.ml.feature import HashingTF, IDF, Tokenizerfrom pyspark.ml.feature import CountVectorizersentenceData = spark.createDataFrame([ (1, "Hi I heard about Spark Spark".split(" ")), (2,.原创 2020-09-21 11:14:04 · 1233 阅读 · 0 评论 -
推荐系统案例
摘要本文将介绍如下几种推荐算法以及调优过程1.基线算法baseline2.item协同过滤3.结合基线算法baseline的item协同过滤算法4.item协同过滤(topK+ baseline)电影数据集地址:http://files.grouplens.org/datasets/movielens/ml-100k.zip基线算法baselinebase...原创 2017-07-25 22:31:14 · 2254 阅读 · 1 评论 -
spark之pageRank
PageRank算法是以Google 的拉里· 佩吉(Larry Page)的名字命名的,用来根据外部文档指向一个文档的链接,对集合中每个文档的重要程度赋一个度量值。该算法可以用于对网页进行排序,当然,也可以用于排序科技文章或社交网络中有影响的用户。PageRank 是执行多次连接的一个迭代算法,因此它是RDD 分区操作的一个很好的用例。算法会维护两个数据集:一个由(pageID, li...原创 2017-07-25 14:45:05 · 854 阅读 · 0 评论 -
leetcode376 摆动序列
如果连续数字之间的差严格地在正数和负数之间交替,则数字序列称为摆动序列。第一个差(如果存在的话)可能是正数或负数。少于两个元素的序列也是摆动序列。例如, [1,7,4,9,2,5] 是一个摆动序列,因为差值 (6,-3,5,-7,3) 是正负交替出现的。相反, [1,4,7,2,5] 和 [1,7,4,5,5] 不是摆动序列,第一个序列是因为它的前两个差值都是正数,第二个序列是因为它的最后一个...原创 2018-06-11 17:57:30 · 776 阅读 · 0 评论 -
最小生成树算法kruskal和prim
图结构如下 直接贴代码import java.util.*;public class KruskalPrim { public static int[][] adjMat = null; static { //用二维矩阵存储图 adjMat = new int[6][6]; adjMat[0][1] = 6; adj...原创 2018-06-30 19:34:37 · 391 阅读 · 0 评论 -
最短路径dijkstra和floyed
闲来没事撸个最短路径代码,关于这两个算法可以参考下面两篇文章,写的太好了,我就用java再写一遍 dijkstra:https://www.cnblogs.com/he-px/p/6677063.html floyed:https://blog.youkuaiyun.com/jeffleo/article/details/53349825贴个用到的图,这个图也是从别人博客上抄过来的,(⊙o⊙)… ...原创 2018-07-01 17:21:19 · 448 阅读 · 0 评论