pySpark学习笔记2——处理csv数据(去重及排序)

本文介绍了如何使用PySpark对CSV数据进行处理,包括如何创建DataFrame,执行排序操作,以及如何在没有pandas权限的环境中实现数据去重。作者分享了在本地环境遇到的问题以及在群友帮助下找到的解决方案,强调了在排序时相同数据的索引特点,并指出去重操作应该在排序之前进行。

之前学习了spark的初步,但远不够需求,最简单的说,能对从hive表得到的数据进行预处理吗?比如说pd.sort_values?以及apply,group,drop_duplicates等。我目前的宏图大业是将数据直接从hive-spark得到,然后同样spark预处理,直接在hdfs上对数据操作(无需加载本地),然后用tfs进行集群处理,完整解决大数据量的问题,这一前提假设是tfs安装正确没有毛病。

For Recommendation in Deep learning QQ Group 277356808

For Visual in deep learning QQ Group 629530787

I'm here waiting for you

不接受这个网页的私聊/私信!!!

 首先要了解的一个概念是RDD,弹性分布式数据集,创建一个rdd,有如下几种方式:参考资料Lea

评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小李飞刀李寻欢

您的欣赏将是我奋斗路上的动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值