SQL遍历文件夹 / 文件,返回文件夹列表信息

/*
EXEC master.dbo.xp_cmdshell 'copy c:\a.txt d:\log\'    --- Copy

EXEC master.dbo.xp_subdirs 'd:\'  --- 显示指定目录下有哪些文件夹
EXEC master.dbo.xp_dirtree 'd:\', @depth = 1   -- 显示指定目录有哪些子目录 (@depth = 1 表示只遍历深度为 1 的目录;此变量不填写,就遍历所有子目录)

EXEC master.dbo.xp_cmdshell 'dir /b/s d:' 
*/




DECLARE @Path nvarchar(260)
SET @Path = 'C:\Downloads'


IF RIGHT(@Path, 1) <> '\'
    SET @Path = @Path + '\'
IF OBJECT_ID('tempdb..#File') IS NOT NULL
    DROP TABLE #File
CREATE TABLE #File(
    id int IDENTITY,  --编号
    directory nvarchar(260),  --路径
    depth int, --深度,相对与@path
    IsFile bit )--0文件夹1文件名成
INSERT #File EXEC master.dbo.xp_dirtree 
    @path = @path,
    @depth = 0,
    @file = 1


DECLARE @depth int, @depthMax int
UPDATE #File SET 
    directory = @Path + directory
WHERE depth = 1
SELECT 
    @depth = 2,
    @depthMax = MAX(depth)
FROM #File
WHILE @depth <= @depthMax
BEGIN
    UPDATE A SET 
        directory = (
                SELECT TOP 1 
                    directory
                FROM #File
                WHERE depth = @depth - 1
                    AND IsFile = 0
                    AND id < A.id
                ORDER BY id DESC
            ) + N'\' + directory
    FROM #File A
    WHERE depth = @depth
    SET @depth= @depth + 1
END
SELECT * FROM #File


                
当你需要在Apache Spark环境下处理大型数据湖(Lakehouse),如Azure Data Lake Storage,且希望在Pandas-like API(类似Python的pandas库)体验下进行文件夹遍历,`mssparkutils` 就派上用场了。`mssparkutils` 提供了一种更友好的方式来处理Spark DataFrames,尤其是在数据读取和操作方面。 使用`mssparkutils` 在Lakehouse中遍历文件夹读取数据,你可以这样做: ```python from mssparkutils.fs.azure import AzureFileSystem from pyspark.sql.functions import col, array, struct # 初始化Azure FileSystem adls = AzureFileSystem() # 指定数据目录 data_path = 'path/to/your/directory' # 获取目录内容(假设文件名是关键列) directory_files = adls.ls(data_path) # 创建DataFrame结构,将文件路径转化为struct数组 file_df = spark.createDataFrame(directory_files, schema=[("filename", StringType())]) file_array = file_df.withColumn('files', array(struct(col('filename')))).select('files').collect() # 现在你可以遍历这个array,逐个读取文件 for file_tuple in file_array: filename = file_tuple[0] # 加载单个文件到DataFrame df = spark.read.format('csv') \ .option('header', True) \ .load(adls.path(f"{data_path}/{filename}")) # 进行处理... ``` 在这个例子中,首先通过`ls()`函数获取目录下的所有文件名,然后将它们转换为一个结构化的数组。之后,你可以迭代这个数组,每次从中取出一个文件名,然后用它来读取和处理对应的数据。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值