spark 中 rdd to dataframe 问题

最新推荐文章于 2024-08-25 08:27:26 发布

原创最新推荐文章于 2024-08-25 08:27:26 发布 · 954 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

spark 专栏收录该内容

5 篇文章

订阅专栏

本文探讨了Spark Streaming中从RDD转换为DataFrame时遇到的数据不一致问题，并提供了可能的原因及解决方案，尤其是在字段较多的情况下。

在spark streaming 过程中遇到数据不对的地方，最有check 到时我们RDD到dataframe 出现了问题

rowRdd = rdd.flatMap(build_data_row)
statsRdd = rowRdd.map(map_to_id)
dfstats = sqlContext.createDataFrame(statsRdd, schema=docShema)

上面的程序中map_to_id 这个function 尽管return Row(.......) 但是在sqlContext.createDataFrame 中出现数据跟预期的不一样的情况
最后从spark 的文档发现， RDD ==> DataFrame 中要指定schema, 或者sampleRatio 的，如果没有指定的话，可能出现数据的错乱

尤其是在table 字段很多的情况下.

PS:

data – an RDD of Row/tuple/list/dict, list, or pandas.DataFrame
schema – a StructType or list of names of columns
samplingRatio – the sample ratio of rows used for inferring

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。