pyspark的电影统计-spark数据项目一

该博客基于搭建好的Hadoop-spark集群(docker下搭建),感兴趣的可以去看怎么搭建https://blog.youkuaiyun.com/Destiny_where/article/details/135589182

项目介绍:提取CSV中的电影基础数据和电影评分数据,写成spark临时表并通过sql计算 前十 的电影评分。

数据下载:https://download.youkuaiyun.com/download/Destiny_where/88878744,该博客使用到了 movies.csv 和 ratings.csv 两个数据文件。

流程:

  1. 上传movies.csv数据到hdfs:hadoop fs -put movies.csv /

  2. 使用 hdfs dfs -ls /查看刚刚上传的文件在这里插入图片描述

  3. 同 步骤 1和2 , 上传ratings.csv文件

  4. 使用spark-submit deal_movies.py 指令提交代码到spark服务器执行。
    deal_movies.py代码

import pyspark
from pyspark.sql 
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值