19、利用Petastorm和预训练模型进行深度学习数据处理与特征提取

a1b2c

于 2025-08-18 13:21:38 发布

阅读量43

点赞数

CC 4.0 BY-SA版权

分类专栏：解锁Azure Databricks：从入门到精通文章标签：深度学习数据处理特征提取

本文链接：https://blog.youkuaiyun.com/a1b2c/article/details/150693036

解锁Azure Databricks：从入门到精通专栏收录该内容

25 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

利用Petastorm和预训练模型进行深度学习数据处理与特征提取

1. 使用Petastorm为深度学习准备数据

在Azure Databricks上，我们可以使用Spark来加载和预处理数据，并将数据以Parquet格式保存在优化的FUSE挂载点 dbfs:/ml 中。然后使用Petastorm加载数据并将其传递给深度学习框架进行训练或推理。具体步骤如下：
1. 创建工作目录 ：在 dbfs:/ml FUSE挂载点中创建一个唯一的工作目录。

import os
import subprocess
import uuid
work_dir = os.path.join("/ml/tmp/petastorm", str(uuid.uuid4()))
dbutils.fs.mkdirs(work_dir)
def get_local_path(dbfs_path):
    return os.path.join("/dbfs", dbfs_path.lstrip("/"))

加载数据 ：使用Spark的内置LIBSVM数据源加载MNIST数据集。

data_url = "https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multiclass/mnist.bz2"
libs

会员秒杀 ¥9.9 重磅福利

超级会员免费看