25、数据清洗与持久化:并行处理与文件格式选择

数据清洗与持久化:并行处理与文件格式选择

1. 并行处理的两种方式

在数据获取和清洗应用的并发处理中,有两种常见的替代方案:
- Shell 管道 :将获取应用与清洗应用连接起来。这两个子进程并发运行,获取应用写入的每一行 ND JSON 数据都能立即供清洗应用处理。
- 工作进程池 :由 concurrent.futures 管理。获取应用创建的每一行 ND JSON 数据会被放入队列,供工作进程之一消费。

下面是 Shell 管道的 mermaid 流程图:

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A(shell 父进程):::process --> B(获取子进程 python acquire.py):::process
    A --> C(清洗子进程 python clean.py):::process
    B -->|共享缓冲区| C
    D(源数据) --> B
    C --> E(目标文件)

Shell 创建两个子进程,并在它们之间设置一个共享缓冲区。对于获取子进程,共享缓冲区是 sys.stdout ;对于清洗子进程,共享缓冲区是 sys.stdin 。随着两个应用的运行,写入的每个字节都可供读取。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值