如何给Large Delete操作提速近千倍?(六)

本文探讨了如何通过FORALL结合原子级操作对大型DELETE语句进行优化,以提高处理速度。通过分段处理、避免庞大IN-LIST条件及批量绑定减少上下文切换,实现在删除大量记录时显著提升效率。测试显示,删除50万和90万行记录的时间大幅缩短。

 本文已经发表在ITPUB优化技术丛书,未经许可,不得转载。

 本文已经发表在ITPUB优化技术丛书,未经许可,不得转载。

1.1. 第五次优化——使用FORALL 原子级操作

这一次的优化过程已经很清晰了,主要是综合了前面几次优化的思想,将他们的优点集中使用,即:

1)        分段处理:将整个大的事务分割为以10000行为单位的小事务,其中,10000这个基数来自于上面使用批量测试时的结果(从删除10000条记录到删除100000条记录,所需要的操作时间已经出现了比较大的倍数关系)。

2)        拆分操作:避开庞大的IN-LIST条件,而是采用原子级的处理。

3)        批量绑定:使用FORALL进行批量绑定,以数组方式处理,大大减少了PL/SQL引擎和SQL引擎的上下文切换,从而提高了处理速度。

 

 

现在,首先来构造以10000为单位的FORALL处理过程:

create or replace procedure del_hubei_SSF_forall                                                                                                               

as

     type ridArray is table of rowid index by binary_integer;

     type dtArray is table of varchar2(50) index by binary_integer;

 

 

     v_rowid ridArray;

     v_mid_to_delete dtArray;

    

begin

     select mid,rowid bulk collect into v_mid_to_delete,v_rowid from temp_mid_hubei_bak where rownum<10001;

 

 

    forall i in 1 .. v_mid_to_delete.COUNT

         delete from SSF where mid = v_mid_to_delete(i);

--       DBMS_OUTPUT.PUT_LINE(to_char(v_mid_to_delete.COUNT)||' records deleted from hubei_SSF &n

<think>我们正在解决的是Python中datasets包没有LargeList类型的问题。根据引用[3],字典(或类似数据结构)在有序性和内存占用方面可能存在局限,但我们的问题集中在特定数据类型LargeList上。 由于引用[1]中展示的数据集结构使用了标准的列表类型('features'是字符串列表),而引用[2]提到下载数据集时可能只下载了元数据,这可能是导致我们无法获取完整数据(包括LargeList)的原因。 解决方案思路: 1. 检查是否确实需要LargeList类型,或者是否可以使用其他方式处理大型列表(例如分块处理)。 2. 确保正确下载了数据集,因为引用[2]提到只下载元数据文件可能导致数据不完整。 3. 如果datasets包本身不支持LargeList,考虑转换数据类型或使用其他支持大型列表的数据结构。 具体步骤: 步骤1:确认数据集下载完整 使用datasets.load_dataset函数时,确保下载的是完整数据集,而不仅仅是元数据。可以尝试重新下载数据集。 步骤2:检查特征类型 在引用[1]中,数据集的特征是字符串列表(如['id','summary','article']),并没有出现LargeList类型。因此,问题可能是用户的数据集有特殊需求,而标准datasets包的特征类型不支持LargeList。 步骤3:自定义特征类型(如果必要) 如果数据集中确实包含大型列表(例如,一个特征是非常长的整数列表或浮点数列表),我们可以尝试使用datasets.Features自定义特征类型。但是,目前datasets包可能没有显式的LargeList类型。我们可以尝试使用以下替代方案: - 使用`datasets.Sequence`来定义可变长度的列表。例如,对于整数列表,可以定义为`datasets.Sequence(datasets.int64)`。 - 如果列表非常大,考虑将数据存储为磁盘上的文件,并在数据集中存储文件路径,然后按需加载。 步骤4:使用其他格式存储大型列表 如果单个特征的数据量过大(例如一个特征包含数百万个元素),那么将其作为单个特征存储可能不合适。考虑将大型列表拆分成多个特征,或者使用一种更高效的文件格式(如HDF5)来存储,然后在数据集中存储文件路径。 步骤5:扩展datasets包的功能(高级) 如果上述方法都不行,可以考虑扩展datasets包,添加对LargeList类型的支持。这需要修改datasets包的源码,实现一个新的`FeatureType`。但这需要深入理解datasets包的结构。 根据引用[2]中的信息,确保使用正确的工具(如modelscope cli或git)下载完整的数据集,并检查是否有版本兼容性问题。 示例代码:如何定义Sequence特征 ```python from datasets import Dataset, Features, Sequence, Value # 假设我们需要一个包含大型整数列表的数据集 features = Features({ 'id': Value('string'), 'large_list': Sequence(Value('int64')), }) # 创建数据集 data = { 'id': ['1', '2'], 'large_list': [[1,2,3,4,5], [10,20,30,40,50,60,70]], # 注意:这里每个列表长度可以不同 } dataset = Dataset.from_dict(data, features=features) ``` 如果列表非常大,上述方法可能导致内存问题。因此,在创建数据集时,我们可以考虑使用生成器来逐步提供数据,避免一次性加载所有数据。 另外,考虑使用`datasets.Dataset.from_generator`方法,它允许动态生成每个样本,从而节省内存。 总结:解决datasets包没有LargeList的方法主要是使用`Sequence`特征类型,并确保数据以流式或生成器方式加载以避免内存问题。同时,确保数据集下载完整。 如果问题仍然存在,可能需要联系datasets包的开发者或寻求其他替代方案。 相关问题: 1. 如何检查datasets包中数据集是否完整下载? 2. 如何使用datasets.Sequence定义可变长度特征? 3. 如何处理超大型数据集以避免内存溢出? 4. 如何扩展datasets包以支持新的特征类型? </think>### 解决 Python datasets 包缺少 LargeList 类型的方法 在 Python 的 `datasets` 包(Hugging Face Datasets 库)中确实没有内置的 `LargeList` 数据类型,但可以通过以下方法解决: #### 1. **使用 Sequence 类型替代(推荐)** `datasets` 包提供 `Sequence` 特性类型,专门用于处理可变长列表数据(包括大型列表): ```python from datasets import Dataset, Features, Sequence, Value # 定义包含大型列表的数据集结构 features = Features({ 'id': Value('string'), 'large_data': Sequence(Value('int64')) # 替代 LargeList }) # 创建数据集实例 dataset = Dataset.from_dict({ 'id': ['item1', 'item2'], 'large_data': [[1, 2, 3, ...], [4, 5, 6, ...]] # 支持长列表 }, features=features) ``` - **优势**:内存高效,支持惰性加载 - **原理**:`Sequence` 类型在后台使用 Apache Arrow 的 `ListArray`,可处理百万级元素的列表[^1] #### 2. **数据类型转换技巧** 若从其他格式(如 Parquet)导入数据时遇到类型不兼容: ```python from datasets import Dataset import pandas as pd df = pd.read_parquet('data.parquet') df['large_list'] = df['large_list'].apply(lambda x: list(x)) # 强制转为 Python list dataset = Dataset.from_pandas(df) ``` #### 3. **文件存储优化** 当列表极大(GB 级)时,建议拆分存储: ```python features = Features({ 'id': Value('string'), 'data_path': Value('string') # 存储二进制文件路径 }) def process_example(example): # 按需从磁盘加载大型数据 with open(example['data_path'], 'rb') as f: large_data = pickle.load(f) return large_data ``` #### 4. **升级和版本兼容性** 确保环境兼容(引用[2]的兼容性问题): ```bash pip install datasets>=2.0.0 --upgrade # 新版优化了大型数据支持 ``` #### 5. **替代方案** 若仍遇瓶颈,可考虑: - 使用 `vaex` 或 `dask` 处理超大型数据集 - 采用分块加载: ```python dataset = load_dataset('my_data', streaming=True) # 流式加载 for chunk in dataset.iter(batch_size=1000): process(chunk) ``` ### 关键注意事项 1. 内存管理:`datasets` 默认使用内存映射文件,但建议监控内存使用 2. 类型验证:通过 `dataset.features` 检查数据类型是否正确转换 3. 性能优化:设置 `keep_in_memory=False` 避免OOM错误 > 关于字典类型的内存局限(如引用[3]所述),`Sequence` 通过 Apache Arrow 的列式存储规避了传统 Python 字典的内存开销问题,特别适合大型列表数据[^3]。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值