数据清洗与持久化:并行处理与文件格式选择
1. 并行处理的两种方式
在数据获取和清洗应用的并发处理中,有两种常见的替代方案:
- Shell 管道 :将获取应用与清洗应用连接起来。这两个子进程并发运行,获取应用写入的每一行 ND JSON 数据都能立即供清洗应用处理。
- 工作进程池 :由 concurrent.futures 管理。获取应用创建的每一行 ND JSON 数据会被放入队列,供工作进程之一消费。
下面是 Shell 管道的 mermaid 流程图:
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A(shell 父进程):::process --> B(获取子进程 python acquire.py):::process
A --> C(清洗子进程 python clean.py):::process
B -->|共享缓冲区| C
D(源数据) --> B
C --> E(目标文件)
Shell 创建两个子进程,并在它们之间设置一个共享缓冲区。对于获取子进程,共享缓冲区是 sys.stdout ;对于清洗子进程,共享缓冲区是 sys.stdin 。随着两个应用的运行,写入的每个字节都可供读取。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



