大数据问答题

博客围绕数仓ETL和Python编程展开。涉及数仓ETL数据探索阶段内容,数据仓库中拉链表的作用、适用场景及实现过程,还给出用Python编写获取当前目录下所有文件名(含子目录文件)的代码示例,以及一段相关的算法代码。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、数仓ETL过程中,数据探索阶段主要包括哪些内容?
2、数据仓库中为什么要做拉链表?什么样的场景比较适合用拉链表?举例说明拉链表的实现过程?
3、用Python编写一个函数,获得当前目录下的所有文件名(包含子目录中的子文件,假设当前用户有所有文件的访问权限)

N_K = map(int,input.split(’ '))
number = list(str(input()))
N,K = N_K[0],N_K[1]
_number = set(number)
expense = 1000000000
def get_min(i,number,n,store,ex):
    if number.count(n) == K:
        store.append([ex,number])
    for j in range(i,len(number)):
        expense = ex
        if number[j] != n:
            expense += abs(number[j]-n)
            number[j] = n
            get_min(i+1,number,n,store,expense)
    return store
for _ in number:
    store = get_min(0,number,
,[],0)
    if store[0][0] < expense:
        _store = store
res = sorted(_store,key=lambda x:x[2])
return res[0][0] + ‘\n’ + res[0][1]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值