spark写入分区问题

泥鳅812

已于 2025-02-17 19:15:35 修改

阅读量138

点赞数 1

分类专栏： data 文章标签： spark

于 2025-02-17 17:26:12 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/sinat_20174131/article/details/145687695

版权

data 专栏收录该内容

2 篇文章

订阅专栏

# 问题总结。
# 相当于之前是在每个日期进行【随机划分】20个分区，还要进行cuid的分区，总nodes=20*num_cuid；现在改完后，应该是每个日期【按照cuid划分】20个分区，每个分区内尽可能的是相同cuid放在一起，总nodes=20。

# 之前代码：
data.repartition(args.num_partition).write.parquet(path=args.save_afs, partitionBy='cuid', mode='overwrite')

# 修改后：
data.repartition(args.num_partition, *['cuid']).write.parquet(path=args.save_afs, mode='overwrite')

博客等级

码龄11年

131
原创

76
点赞

284
收藏

40
粉丝

关注

私信

热门文章

分类专栏

data 2篇
windows 5篇
cuda 4篇
gpu 4篇
github 1篇
2FA 1篇
centos 1篇
yum 1篇
anaconda 2篇
sqlalchemy 1篇
pandas 1篇
python 77篇
R 12篇
Linux 36篇
ahalei 8篇
ML 7篇
spider 10篇
markdown 3篇
tip 48篇
authority 4篇
algorithm 17篇
DB 28篇
html

展开全部收起

上一篇：: tensorflow版本差异总结

最新评论

linux的shell命令做数据统计分析
普通网友: 文章构思巧妙，结构紧凑，既有深度又有广度，读后让人受益匪浅，确实是一篇值得一读的佳作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
linux的shell命令做数据统计分析
优快云-Ada助手: 不知道 CS入门技能树是否可以帮到你：https://edu.youkuaiyun.com/skill/gml?utm_source=AI_act_gml
Github的2FA验证(Two-factor authentication)(不要慌，非常简单)
泥鳅812: 跟手机号有啥关系。你的auth是通过第一次扫码（github账号信息）+手机设备id两者加密得到的。设备跟换，或者你把验证app卸载都会导致加密组合信息丢失啊，所以你只能通过最后一步来恢复。你中途可以增加另一个保命方式，security keys，这个不需要手机，相当于windows锁频的pin码，这个就方便多了
Github的2FA验证(Two-factor authentication)(不要慌，非常简单)
泥鳅812: 很多公司的服务器登录（跳板机）、公司重要数据页面登陆都在用啦，这已经成为企业安全标配啦
Github的2FA验证(Two-factor authentication)(不要慌，非常简单)
jAmEs_: 认真阅读2FA的文档，还是感觉不能用邮件来重置密码，这个我感觉挺奇怪的，不太合理，如果邮件、手机号都不能作为兜底的手段，这个有点不能接受啊，本来密码输入就是一个容易泄露的过程，所以2FA来保障，但是兜底的换成保存这些code也保管麻烦，也不见得不容易泄露，理解不了啊

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。