【pyspark】parallelize和broadcast文件落盘问题（后续）

最新推荐文章于 2024-08-29 17:06:49 发布

原创最新推荐文章于 2024-08-29 17:06:49 发布 · 320 阅读

0 ·

CC 4.0 BY-SA版权

Spark 专栏收录该内容

48 篇文章

订阅专栏

文章探讨了PySpark中广播变量的使用与管理问题，特别是在无限循环中如何避免因广播变量累积导致的磁盘空间耗尽。提出了在每个循环结束后清理临时目录中广播变量文件的方法。

之前写过一篇文章，pyspark】parallelize和broadcast文件落盘问题，这里后来倒腾了一下，还是没找到 PySpark 没有删掉自定义类型的广播变量文件，因为用户的代码是一个 While True 的无限循环，类似下面的逻辑（下面的代码实际上 destroy 是可以删除落盘的广播变量文件的，但是用户的代码删不掉，因为没有仔细研究用户的代码，所以其实这个问题我感觉也不算 PySpark 的问题，只是在帮用户解决问题的时候另辟蹊径了，所以就记录下来了）。

class KK:
    def __init__(self):
        self._dummy = 'kk' * 10000000
        self.m = 'k'

def test(k):
    return k.value.m

def run():
    k = KK()
    a = sc.parallelize(list(range(1000)))
    broad_k = sc.broadcast(k)
    kk = a.map(lambda x: test(broad_k))
    kk.collect()
    broad_k.destroy()

while True:
    run()