31、基于Spark的电影推荐系统实现

基于Spark的电影推荐系统实现

1. 数据加载

我们将基于MovieLens评分数据进行推荐,第一步是使用Sparkling加载这些数据。Spark可以从Hadoop支持的任何存储源加载数据,包括本地文件系统、HDFS,以及其他数据源如Cassandra、HBase和Amazon S3。

下面是一个简单的作业,用于统计评分的数量:

(defn count-ratings [sc]
  (-> (spark/text-file sc "data/ml-100k/ua.base")
      (spark/count)))
(defn ex-7-34 []
  (spark/with-context sc (-> (conf/spark-conf)
                             (conf/master "local")
                             (conf/app-name "ch7"))
    (count-ratings sc)))

运行上述代码后,控制台会打印出很多Spark的日志信息,最后一行将显示计算得到的评分数量。

需要注意的是, text-file 函数的第一个参数必须是Spark上下文。Spark上下文告诉Spark如何访问集群,最基本的配置需要指定Spark主节点的位置和作业的应用程序名称。在本地运行时,Spark主节点为 "local" ,这对于基于REPL的交互式开发很有用。

2.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值