如何给Large Delete操作提速近千倍?(五)

博客围绕SQL批量作业优化展开,第四次优化使用FORALL改写拆分DELETE操作,应用SELECT BULK COLLECT INTO方法批量绑定。经不同数量记录删除测试,发现批量删除虽能解决一定问题,但操作数组过大时执行结果会受影响,进而引出第五次优化思路。

 

1.1. 第四次优化——使用FORALL 处理批量作业

上面我们已经介绍了批量作业的一些概念,这里不再赘述。

这次优化的思想主要是使用FORALL的思路来改写“第三次优化——拆分DELETE操作”,具体的修改如下:

SQL> l

  1  create or replace procedure del_hubei_SSR_forall

  2  as

  3       type ridArray is table of rowid index by binary_integer;

  4       type dtArray is table of varchar2(50) index by binary_integer;

  5

  6       v_rowid ridArray;

  7       v_mid_to_delete dtArray;

  8

  9  begin

 10       select mid,rowid bulk collect into v_mid_to_delete,v_rowid from temp_mid_hubei where rownum<11;

 11

 12      forall i in 1 .. v_mid_to_delete.COUNT

 13           delete from SSR where mid = v_mid_to_delete(i);

 14

 15             DBMS_OUTPUT.PUT_LINE('Full Finished!!!');

 16             DBMS_OUTPUT.PUT_LINE('Totally '||to_char(v_mid_to_delete.COUNT)||' records deleted from hubei_SSR   !!!');

 17

 18       forall i in 1 .. v_rowid.COUNT

 19           delete from temp_mid_hubei where rowid = v_rowid(i);

 20

 21             DBMS_OUTPUT.PUT_LINE('Full Finished!!!');

 22             DBMS_OUTPUT.PUT_LINE('Totally '||to_char(v_rowid.COUNT)||' records deleted from temp_mid_hubei   !!!');

 23

 24* end;

SQL> /

 

Procedure created.

 

Elapsed: 00:00:00.07

SQL>

SQL>  exec del_hubei_SSR_forall;

Full Finished!!!

Totally 10 records deleted from hubei_SSR   !!!

Full Finished!!!

Totally 10 records deleted from temp_mid_hubei   !!!

 

PL/SQL procedure successfully completed.

 

Elapsed: 00:00:00.16

SQL>

 

 

这里应用了上面我们说过的SELECT BULK COLLECT INTO 方法来进行批量绑定,根据以10条记录为一组的测试结果表名,速度比较理想,于是再测1000条记录的情况:

 

SQL> exec del_hubei_SSR_forall;

Full Finished!!!

Totally 1000 records deleted from hubei_SSR   !!!

Full Finished!!!

Totally 100 records deleted from temp_mid_hubei   !!!

 

PL/SQL procedure successfully completed.

 

Elapsed: 00:00:00.66

SQL>

 

 

测试结果还是比较稳定,于是再测10000100000条记录的情况:

 

SQL> exec del_hubei_SSR_forall;

Full Finished!!!

Totally 10000 records deleted from hubei_SSR   !!!

Full Finished!!!

Totally 10000 records deleted from temp_mid_hubei   !!!

 

PL/SQL procedure successfully completed.

 

Elapsed: 00:00:04.07

SQL>

SQL> exec del_hubei_SSR_forall;

Full Finished!!!

Totally 100000 records deleted from hubei_SSR   !!!

Full Finished!!!

Totally 100000 records deleted from temp_mid_hubei   !!!

 

PL/SQL procedure successfully completed.

 

Elapsed: 00:03:51.29

SQL>

 

这里我们注意到,完成删除10000记录需要4秒中,而完成100000条记录的删除需要将近4分钟,也就是说,从删除10000条记录到删除100000条记录,所需要的操作时间已经出现了比较大的倍数关系。

 

下面再测试一下50万条记录的情况:

SQL> exec del_hubei_SSR_forall;

Full Finished!!!

Totally 509555 records deleted from hubei_SSR   !!!

Full Finished!!!

Totally 509555 records deleted from temp_mid_hubei   !!!

 

PL/SQL procedure successfully completed.

 

Elapsed: 00:39:04.41

SQL>

 

这里,删除500000条记录已经需要将近40分钟了!

到这里,基本上可以得出结论,使用批量删除虽然可以解决一定的问题,但是如果需要操作的数组太大,那么执行结果会打打折扣,这个是不难理解的。

于是,第五次优化的思路就产生了:

1)        分段处理

2)        拆分操作

3)        批量绑定

 

 

<think>我们正在解决的是Python中datasets包没有LargeList类型的问题。根据引用[3],字典(或类似数据结构)在有序性和内存占用方面可能存在局限,但我们的问题集中在特定数据类型LargeList上。 由于引用[1]中展示的数据集结构使用了标准的列表类型('features'是字符串列表),而引用[2]提到下载数据集时可能只下载了元数据,这可能是导致我们无法获取完整数据(包括LargeList)的原因。 解决方案思路: 1. 检查是否确实需要LargeList类型,或者是否可以使用其他方式处理大型列表(例如分块处理)。 2. 确保正确下载了数据集,因为引用[2]提到只下载元数据文件可能导致数据不完整。 3. 如果datasets包本身不支持LargeList,考虑转换数据类型或使用其他支持大型列表的数据结构。 具体步骤: 步骤1:确认数据集下载完整 使用datasets.load_dataset函数时,确保下载的是完整数据集,而不仅仅是元数据。可以尝试重新下载数据集。 步骤2:检查特征类型 在引用[1]中,数据集的特征是字符串列表(如['id','summary','article']),并没有出现LargeList类型。因此,问题可能是用户的数据集有特殊需求,而标准datasets包的特征类型不支持LargeList。 步骤3:自定义特征类型(如果必要) 如果数据集中确实包含大型列表(例如,一个特征是非常长的整数列表或浮点数列表),我们可以尝试使用datasets.Features自定义特征类型。但是,目前datasets包可能没有显式的LargeList类型。我们可以尝试使用以下替代方案: - 使用`datasets.Sequence`来定义可变长度的列表。例如,对于整数列表,可以定义为`datasets.Sequence(datasets.int64)`。 - 如果列表非常大,考虑将数据存储为磁盘上的文件,并在数据集中存储文件路径,然后按需加载。 步骤4:使用其他格式存储大型列表 如果单个特征的数据量过大(例如一个特征包含数百万个元素),那么将其作为单个特征存储可能不合适。考虑将大型列表拆分成多个特征,或者使用一种更高效的文件格式(如HDF5)来存储,然后在数据集中存储文件路径。 步骤5:扩展datasets包的功能(高级) 如果上述方法都不行,可以考虑扩展datasets包,添加对LargeList类型的支持。这需要修改datasets包的源码,实现一个新的`FeatureType`。但这需要深入理解datasets包的结构。 根据引用[2]中的信息,确保使用正确的工具(如modelscope cli或git)下载完整的数据集,并检查是否有版本兼容性问题。 示例代码:如何定义Sequence特征 ```python from datasets import Dataset, Features, Sequence, Value # 假设我们需要一个包含大型整数列表的数据集 features = Features({ 'id': Value('string'), 'large_list': Sequence(Value('int64')), }) # 创建数据集 data = { 'id': ['1', '2'], 'large_list': [[1,2,3,4,5], [10,20,30,40,50,60,70]], # 注意:这里每个列表长度可以不同 } dataset = Dataset.from_dict(data, features=features) ``` 如果列表非常大,上述方法可能导致内存问题。因此,在创建数据集时,我们可以考虑使用生成器来逐步提供数据,避免一次性加载所有数据。 另外,考虑使用`datasets.Dataset.from_generator`方法,它允许动态生成每个样本,从而节省内存。 总结:解决datasets包没有LargeList的方法主要是使用`Sequence`特征类型,并确保数据以流式或生成器方式加载以避免内存问题。同时,确保数据集下载完整。 如果问题仍然存在,可能需要联系datasets包的开发者或寻求其他替代方案。 相关问题: 1. 如何检查datasets包中数据集是否完整下载? 2. 如何使用datasets.Sequence定义可变长度特征? 3. 如何处理超大型数据集以避免内存溢出? 4. 如何扩展datasets包以支持新的特征类型? </think>### 解决 Python datasets 包缺少 LargeList 类型的方法 在 Python 的 `datasets` 包(Hugging Face Datasets 库)中确实没有内置的 `LargeList` 数据类型,但可以通过以下方法解决: #### 1. **使用 Sequence 类型替代(推荐)** `datasets` 包提供 `Sequence` 特性类型,专门用于处理可变长列表数据(包括大型列表): ```python from datasets import Dataset, Features, Sequence, Value # 定义包含大型列表的数据集结构 features = Features({ 'id': Value('string'), 'large_data': Sequence(Value('int64')) # 替代 LargeList }) # 创建数据集实例 dataset = Dataset.from_dict({ 'id': ['item1', 'item2'], 'large_data': [[1, 2, 3, ...], [4, 5, 6, ...]] # 支持长列表 }, features=features) ``` - **优势**:内存高效,支持惰性加载 - **原理**:`Sequence` 类型在后台使用 Apache Arrow 的 `ListArray`,可处理百万级元素的列表[^1] #### 2. **数据类型转换技巧** 若从其他格式(如 Parquet)导入数据时遇到类型不兼容: ```python from datasets import Dataset import pandas as pd df = pd.read_parquet('data.parquet') df['large_list'] = df['large_list'].apply(lambda x: list(x)) # 强制转为 Python list dataset = Dataset.from_pandas(df) ``` #### 3. **文件存储优化** 当列表极大(GB 级)时,建议拆分存储: ```python features = Features({ 'id': Value('string'), 'data_path': Value('string') # 存储二进制文件路径 }) def process_example(example): # 按需从磁盘加载大型数据 with open(example['data_path'], 'rb') as f: large_data = pickle.load(f) return large_data ``` #### 4. **升级和版本兼容性** 确保环境兼容(引用[2]的兼容性问题): ```bash pip install datasets>=2.0.0 --upgrade # 新版优化了大型数据支持 ``` #### 5. **替代方案** 若仍遇瓶颈,可考虑: - 使用 `vaex` 或 `dask` 处理超大型数据集 - 采用分块加载: ```python dataset = load_dataset('my_data', streaming=True) # 流式加载 for chunk in dataset.iter(batch_size=1000): process(chunk) ``` ### 关键注意事项 1. 内存管理:`datasets` 默认使用内存映射文件,但建议监控内存使用 2. 类型验证:通过 `dataset.features` 检查数据类型是否正确转换 3. 性能优化:设置 `keep_in_memory=False` 避免OOM错误 > 关于字典类型的内存局限(如引用[3]所述),`Sequence` 通过 Apache Arrow 的列式存储规避了传统 Python 字典的内存开销问题,特别适合大型列表数据[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值