pyspark将DataFrame写入tfrecord 和tf中tfrecord的解析

最新推荐文章于 2024-08-22 09:03:37 发布

原创

最新推荐文章于 2024-08-22 09:03:37 发布 · 1.7k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#spark #大数据 #分布式

该文介绍了如何在特征工程中使用pyspark对数据进行预处理，然后将其保存为tfrecord格式，以便于后续的模型训练。在处理过程中，涉及到数据清洗、缺失值填充，以及利用DataFrame进行操作。同时，文章还提供了tfrecord文件的解析方法，包括数据读取、shuffle及batch处理，用于模型的训练输入。

做特征工程时，常需要利用pyspark 将数据处理后保存为tfrecord以供后续的模型训练。本文给一个保存为tfrecord 和对tfrecord进行解析的案例。

一、spark将DataFrame写入tfrecord

用spark读取数据经过处理后，保存为pyspark的dataframe形式。

def tfrecord(data,dt_begin,dt_end,is_train=True):

from pyspark.sql import functions as funcs

if is_train: # 如果是train，将数据打乱下（在写tfrecord时就进行)

data = data.orderBy(funcs.rand())

tag = 'train_{0}_{1}_{2}'.format(VERSION, dt_begin, dt_end)

else:

tag = 'test_{0}_{1}_{2}'.format(VERSION, dt_begin, dt_end)

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。