基于Spark的电影推荐系统实现
1. 数据加载
我们将基于MovieLens评分数据进行推荐,第一步是使用Sparkling加载这些数据。Spark可以从Hadoop支持的任何存储源加载数据,包括本地文件系统、HDFS,以及其他数据源如Cassandra、HBase和Amazon S3。
下面是一个简单的作业,用于统计评分的数量:
(defn count-ratings [sc]
(-> (spark/text-file sc "data/ml-100k/ua.base")
(spark/count)))
(defn ex-7-34 []
(spark/with-context sc (-> (conf/spark-conf)
(conf/master "local")
(conf/app-name "ch7"))
(count-ratings sc)))
运行上述代码后,控制台会打印出很多Spark的日志信息,最后一行将显示计算得到的评分数量。
需要注意的是, text-file 函数的第一个参数必须是Spark上下文。Spark上下文告诉Spark如何访问集群,最基本的配置需要指定Spark主节点的位置和作业的应用程序名称。在本地运行时,Spark主节点为 "local" ,这对于基于REPL的交互式开发很有用。
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



