搞懂Python切片操作

利用python解决问题的过程中,经常会遇到从某个对象中抽取部分值的情况。“切片”操作正是专门用于实现这一目标的有力武器。理论上,只要条件表达式得当,可以通过单次或多次切片操作实现任意目标值切取。切片操作的基本语法比较简单,但如果不彻底搞清楚内在逻辑,也极容易产生错误,而且这种错误有时隐蔽得较深,难以察觉。本文通过详细例子总结归纳了切片操作的各种情形,下文均以list类型作为实验对象,其结论可推广至其他可切片对象。

一、 Python可切片对象的索引方式

包括:正索引和负索引两部分,如下图所示,以list对象a = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]为例:

二、 Python切片操作的一般方式

一个完整的切片表达式包含两个“:”,用于分隔三个参数(start_index、end_index、step)。当只有一个“:”时,默认第三个参数step=1;当一个“:”也没有时,start_index=end_index,表示切取start_index指定的那个元素。

切片操作基本表达式:object[start_index:end_index:step]

step:正负数均可,其绝对值大小决定了切取数据时的‘‘步长”,正负号决定了“切取方向”,正号表示“从左往右”取值,负号表示“从右往左”取值。当step省略时,默认为1,即从左往右以步长1取值。“切取方向非常重要!”“切取方向非常重要!”“切取方向非常重要!”,重要的事情说三遍!

start_index:表示起始索引(包含该索引对应值);该参数省略时,表示从对象“端点”开始取值,至于是从“起点”还是从“终点”开始,则由step参数的正负决定,step为正从“起点”开始,为负从“终点”开始。

end_index:表示终止索引(不包含该索引对应值);该参数省略时,表示一直取到数据“端点”,至于是到“起点”还是到“终点”,同样由step参数的正负决定,step为正时直到“终点”,为负时直到“起点”。

因此需要注意一点,start_index和end_index省略时,都是包含对象端点的,代表从对象端点开始取值或者一直取值到对象端点,知悉!!!

三、 Python切片操作详细例子

以下示例均以list对象a = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]为例:

>>>a = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

1. 切取单个元素

>>>a[0]
>>>0
>>>a[-4]
>>>6
当索引只有一个数时,表示切取某一个元素。

2. 切取完整对象

>>>a[:] #从左往右
>>> [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
>>>a[::]#从左往右
>>> [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
>>>a[::-1]#从右往左
>>> [9, 8, 7, 6, 5, 4, 3, 2, 1, 0]

步长step为负,相当于从右往左取数据, 最右边的元素变为起点了

3. start_index和end_index全为正(+)索引的情况

>>>a[1:6]
>>> [1, 2, 3, 4, 5]
step=1,从左往右取值,start_index=1到end_index=6同样表示从左往右取值。
>>>a[1:6:-1]
>>> []
输出为空列表,说明没取到数据。
step=-1,决定了从右往左取值,而start_index=1到end_index=6决定了从左往右取值,两者矛盾,所以为空。
>>>a[6:2]
>>> []
同样输出为空列表。
step=1,决定了从左往右取值,而start_index=6到end_index=2决定了从右往左取值,两者矛盾,所以为空。
>>>a[:6]
>>> [0, 1, 2, 3, 4, 5]
step=1,表示从左往右取值,而start_index省略时,表示从端点开始,因此这里的端点是“起点”,即从“起点”值0开始一直取到end_index=6(该点不包括)。
>>>a[:6:-1]
>>> [9, 8, 7]
step=-1,从右往左取值,而start_index省略时,表示从端点开始,因此这里的端点是“终点”,即从“终点”值9开始一直取到end_index=6(该点不包括)。
>>>a[6:]
>>> [6, 7, 8, 9]
step=1,从左往右取值,从start_index=6开始,一直取到“终点”值9。
>>>a[6::-1]
>>> [6, 5, 4, 3, 2, 1, 0]
step=-1,从右往左取值,从start_index=6开始,一直取到“起点”0。

4. start_index和end_index全为负(-)索引的情况

>>>a[-1:-6]
>>> []
step=1,从左往右取值,而start_index=-1到end_index=-6决定了从右往左取值,两者矛盾,所以为空。
索引-1在-6的右边(如上图)
>>>a[-1:-6:-1]
>>> [9, 8, 7, 6, 5]
step=-1,从右往左取值,start_index=-1到end_index=-6同样是从右往左取值。
索引-1在6的右边(如上图)
>>>a[-6:-1]
>>> [4, 5, 6, 7, 8]
step=1,从左往右取值,而start_index=-6到end_index=-1同样是从左往右取值。
索引-6在-1的左边(如上图)
>>>a[:-6]
>>> [0, 1, 2, 3]
step=1,从左往右取值,从“起点”开始一直取到end_index=-6(该点不包括)。
>>>a[:-6:-1]
>>> [9, 8, 7, 6, 5]
step=-1,从右往左取值,从“终点”开始一直取到end_index=-6(该点不包括)。
>>>a[-6:]
>>> [4, 5, 6, 7, 8, 9]
step=1,从左往右取值,从start_index=-6开始,一直取到“终点”。
>>>a[-6::-1]
>>> [4, 3, 2, 1, 0]
step=-1,从右往左取值,从start_index=-6开始,一直取到“起点”。

5. start_index和end_index正(+)负(-)混合索引的情况

>>>a[1:-6]
>>> [1, 2, 3]
start_index=1在end_index=-6的左边,因此从左往右取值,而step=1同样决定了从左往右取值,因此结果正确
>>>a[1:-6:-1]
>>> []
start_index=1在end_index=-6的左边,因此从左往右取值,但step=-则决定了从右往左取值,两者矛盾,因此为空。
>>>a[-1:6]
>>> []
start_index=-1在end_index=6的右边,因此从右往左取值,但step=1则决定了从左往右取值,两者矛盾,因此为空。
>>>a[-1:6:-1]
>>> [9, 8, 7]
start_index=-1在end_index=6的右边,因此从右往左取值,而step=-1同样决定了从右往左取值,因此结果正确。

6. 多层切片操作,计算上就是一层切片一层切片取值,上一层切片的结果当作下一层切片的数据计算,跟管道一样。

>>>a[:8][2:5][-1:]
>>> [4]
相当于:
a[:8]=[0, 1, 2, 3, 4, 5, 6, 7]
a[:8][2:5]= [2, 3, 4]
a[:8][2:5][-1:] = [4]
理论上可无限次多层切片操作,只要上一次返回的是非空可切片对象即可。

7. 切片操作的三个参数可以用表达式

>>>a[2+1:3*2:7%3]
>>> [3, 4, 5]
即:a[2+1:3*2:7%3] = a[3:6:1]

8. 其他对象的切片操作

前面的切片操作以list对象为例进行说明,但实际上可进行切片操作的数据类型还有很多,包括元组、字符串等等。

>>> (0, 1, 2, 3, 4, 5)[:3]
>>> (0, 1, 2)
元组的切片操作
>>>'ABCDEFG'[::2]
>>>'ACEG'
字符串的切片操作
>>>for i in range(1,100)[2::3][-5:]: 
       print(i)
>>>87
90
93
96
99
就是利用range()函数生成1-99的整数,然后从start_index=2(即3)开始以step=3取值,直到终点,再在新序列中取最后五个数。

四、 常用切片操作

1.取偶数位置

>>>b = a[::2]
[0, 2, 4, 6, 8]

2.取奇数位置

>>>b = a[1::2]
[1, 3, 5, 7, 9]

3.拷贝整个对象

>>>b = a[:] #
>>>print(b) #[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
>>>print(id(a)) #41946376
>>>print(id(b)) #41921864
或
>>>b = a.copy()
>>>print(b) #[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
>>>print(id(a)) #39783752
>>>print(id(b)) #39759176

需要注意的是:[:]和.copy()都属于“浅拷贝”,只拷贝最外层元素,内层嵌套元素则通过引用方式共享,而非独立分配内存,如果需要彻底拷贝则需采用“深拷贝”方式,如下例所示:

a = [1,2,['A','B']]
print('a={}'.format(a))
b = a[:]
b[0] = 9 #修改b的最外层元素,将1变成9
b[2][0] = 'D' #修改b的内嵌层元素
print('a={}'.format(a))
print('b={}'.format(b))
print('id(a)={}'.format(id(a)))
print('id(b)={}'.format(id(b)))

打印如下
a=[1, 2, ['A', 'B']] #原始a
a=[1, 2, ['D', 'B']] #b修改内部元素A为D后,a中的A也变成了D,说明共享内部嵌套元素,但外部元素1没变。
b=[9, 2, ['D', 'B']] #修改后的b
id(a)=38669128
id(b)=38669192

4.修改单个元素

>>>a[3] = ['A','B']
[0, 1, 2, ['A', 'B'], 4, 5, 6, 7, 8, 9]

5.在某个位置插入元素

>>>a[3:3] = ['A','B','C']
[0, 1, 2, 'A', 'B', 'C', 3, 4, 5, 6, 7, 8, 9]
>>>a[0:0] = ['A','B']
['A', 'B', 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

6.替换一部分元素

>>>a[3:6] = ['A','B']
[0, 1, 2, 'A', 'B', 6, 7, 8, 9]

五、 总结

(一)start_index、end_index、step三者可同为正、同为负,或正负混合。必须遵循一个原则,即:当start_index表示的实际位置在end_index的左边时,从左往右取值,此时step必须是正数(同样表示从左往右);当start_index表示的实际位置在end_index的右边时,表示从右往左取值,此时step必须是负数(同样表示从右往左),即两者的取值顺序必须相同。即同时要考虑start_index和end_index的位置大小和step步长的正负才能判断切片操作是否合理。

(二)当start_index或end_index省略时,取值的起始索引和终止索引由step的正负来决定,这种情况不会有取值方向矛盾(即不会返回空列表[]),但step正和负取到的结果顺序是相反的,因为一个向左一个向右

(三)step的正负是必须要考虑的,尤其是当step省略时。比如a[-1:],很容易就误认为是从“终点”开始一直取到“起点”,即a[-1:]= [9, 8, 7, 6, 5, 4, 3, 2, 1, 0],但实际上a[-1:]=[9](注意不是9)原因在于step省略时step=1表示从左往右取值,而起始索引start_index=-1本身就是对象的最右边元素了,再往右已经没数据了,因此结果只含有9一个元素。

(四)需要注意:“取单个元素(不带“:”)”时,返回的是对象的某个元素,其类型由元素本身的类型决定,而与母对象无关,如上面的a[0]=0、a[-4]=6,元素0和6都是“数值型”,而母对象a却是“list”型;“取连续切片(带“:”)”时,返回结果的类型与母对象相同,哪怕切取的连续切片只包含一个元素,如上面的a[-1:]=[9],返回的是一个只包含元素“9”的list,而非数值型“9”。

参考文献:
彻底搞懂Python切片操作 - 简书

<think>嗯,用户之前问过关于数据预处理中提网格数据的问题,特别是时间维度的处理不太明白。现在他们再次提问,希望更详细地了解时间维度的处理部分。我需要回顾之前的回答,看看哪里可能解释得不够清楚。 首先,用户提到的原文中,时间对齐部分涉及将北京时转为UTC,这可能是一个关键点。用户可能对时区转换如何具体操作有疑问,或者时间序列切片的具体方法不太清楚。在之前的回答里,我提到了时区转换的例子和滑动窗口的概念,但可能没有详细展开。 接下来,我需要考虑用户可能的困惑点。例如,他们可能不理解时间对齐后如何匹配不同时间间隔的数据,或者如何将连续的时间点处理成神经网络可用的输入格式。另外,用户提到的TRMM数据是3小时一次,而地面站是日累计,这里可能存在时间重采样的步骤,需要进一步解释。 用户可能还不太明白时间步长和滑动窗口的关系,或者如何将时间序列数据整合到网格数据中。比如,每个时间点提的子网格如何按时间顺序排列,形成训练样本。这里需要详细说明数据结构,比如三维张量(时间、空间、通道)的形成过程。 此外,用户可能对数据在实际代码中的处理方式感兴趣,比如如何循环时间步,如何确保每个时间点的子网格与地面观测对应。可能需要用更具体的例子或伪代码来演示时间维度的处理流程。 还要注意避免使用过于专业的术语,尽量用通俗的语言解释。例如,解释“滑动窗口”时,可以用“按时间顺序依次每个时刻的数据”这样的表达。同时,需要强调时间对齐的重要性,确保卫星数据和地面数据在时间上严格对应,避免时间偏差影响模型训练。 最后,用户可能需要了解时间处理后的数据如何输入到神经网络,比如RNN、LSTM或Transformer如何处理时间序列。这部分可以简要提及,但重点还是放在预处理步骤上。 总结一下,用户需要更详细的步骤解释,可能包括时区转换的具体方法、时间匹配的实例、时间序列切片操作,以及最终数据结构的展示。需要用更直观的例子和结构化的说明来帮助他们理解时间维度处理的每个环节。</think>### **时间维度处理详解(逐步拆解)** --- #### **一、核心问题定位** **矛盾点**: - **卫星数据**:按固定时间间隔采集(如TRMM每3小时一次) - **地面数据**:按站点本地时间记录(如北京时每日08:00人工观测) **目标**:建立**严格的时间点对应关系**,确保每个卫星数据子网格与地面观测值处于**同一物理时间** --- #### **二、关键处理步骤详解** ##### **1. 时区统一(对齐时间基准)** - **卫星时间**:UTC时间(无时区偏移) *示例*:`2023-07-01T03:00:00Z` - **地面时间**:北京时间(UTC+8) *示例*:`2023-07-01 11:00 CST` → 转为UTC即 `2023-07-01T03:00:00Z` - **转换公式**: $$UTC时间 = 北京时间 - 8小时$$ **技术实现**: ```python # 假设地面数据时间列为pandas对象 ground_data['UTC_time'] = ground_data['Beijing_time'].dt.tz_localize('Asia/Shanghai').dt.tz_convert('UTC') ``` --- ##### **2. 时间戳精确匹配** - **匹配规则**:找到与地面观测时间**最接近的卫星数据时间片** - **容差设置**:通常要求时间差小于数据采集间隔的1/2(如TRMM 3h数据,允许±1.5h偏差) **匹配示例**: | 地面观测时间 (UTC) | 卫星数据时间片 | 是否匹配 | |-------------------------|-------------------------|----------| | 2023-07-01 02:45:00 | 2023-07-01 03:00:00 | ❌ 差15分钟 | | 2023-07-01 03:10:00 | 2023-07-01 03:00:00 | ✅ 差10分钟 | --- ##### **3. 时间序列切片(构建时间维度样本)** **处理逻辑**:对每个地面观测时间点$t_i$,提其前后$k$个时间片的卫星子网格,构建时间序列特征 **参数说明**: - **时间步长**:若$k=3$,表示使用$[t_{i-1}, t_i, t_{i+1}]$三个连续时刻的数据 - **物理意义**:捕捉降水过程的**时间演变趋势**(如降雨云团移动) **伪代码实现**: ```python time_window_size = 3 # 前后各1个时间片 for station in stations: # 获该站点所有观测时间点 obs_times = station['UTC_time'] for t in obs_times: # 在卫星数据中查找邻近时间片 satellite_slices = find_nearest_satellite_frames(t, window=time_window_size) # 对每个时间片提7x7子网格 time_series_grids = [extract_7x7_grid(slice) for slice in satellite_slices] # 组合成时间序列样本 training_sample = np.stack(time_series_grids, axis=0) # 形状:(时间步, 7, 7, 通道) ``` --- ##### **4. 时间维度重采样(解决不同时间分辨率问题)** **矛盾**: - TRMM原始数据:3小时分辨率 - 地面观测数据:日累计降雨量 **处理方法**: 1. **累积转换**:将TRMM的3小时降雨率(mm/h)转为日降雨量 $$日降雨量 = \sum_{t=0}^{7} (降雨率_t \times 3)$$ (TRMM每日8个时次:00:00, 03:00, ..., 21:00 UTC) 2. **时间对齐**:确保每日TRMM累积时段与地面观测时段完全重合 *示例*: 地面日降雨量记录时间为UTC 00:00(对应北京时间08:00),则TRMM累积区间应为前一日21:00至当日21:00(完整24小时) --- #### **三、数据结构可视化** **单样本时间维度结构**: ``` 时间轴(3个时间步) ├── t-1时刻: [7x7网格数据] ← 前一个时间片 ├── t时刻 : [7x7网格数据] ← 当前观测时刻 └── t+1时刻: [7x7网格数据] ← 后一个时间片 ``` **批量训练数据维度**: `(样本数, 时间步长, 网格高度, 网格宽度, 特征通道数)` *示例*:`(1024, 3, 7, 7, 2)` 表示: - 1024个训练样本 - 每个样本含3个连续时间步 - 每个时间步7x7网格 - 2个特征通道(如TRMM降水+DEM高程) --- #### **四、技术细节深度解析** ##### **1. 时间序列的滑动窗口** - **数据增强**:通过滑动窗口增加样本量 *原始时序*:`[t1, t2, t3, t4, t5]` *窗口=3时生成样本*: `[t1,t2,t3] → [t2,t3,t4] → [t3,t4,t5]` ##### **2. 时间维度归一化** - **单独归一化**:对每个时间步的每个通道单独进行归一化 $$X_{\text{norm}}^{(t)} = \frac{X^{(t)} - \mu^{(t)}}{\sigma^{(t)}}$$ 避免不同时刻数据分布差异干扰模型学习 ##### **3. 时间特征融合** - **神经网络设计**: - 使用3D卷积:同时提时空特征 - 或使用ConvLSTM:捕捉时间依赖性 --- #### **五、实例演示** **场景**:某雨量站在2023-06-01 UTC 00:00的日降雨量为50mm **处理流程**: 1. **时间对齐**:确认对应TRMM时间片为前一日21:00至当日21:00(共8个3小时片) 2. **累积计算**:将8个TRMM片段的降雨率×3后求和 3. **时间切片**:提这8个时间片的7x7子网格 4. **构建输入**:将8个时间片的子网格堆叠为时间序列数据,形状为`(8,7,7,2)` 5. **标签对应**:该样本的输出标签值为50mm --- #### **六、常见问题解答** **Q1:如何处理缺失时间片?** - **前向填充**:用前一个有效值补全 - **线性插值**:在时间维度上进行插值 - **掩码标记**:添加额外的缺失标志通道 **Q2:时间步长如何选择?** - **气象学依据**: - 短时降水预测:1-3小时步长(需高时间分辨率) - 气候分析:日/月步长 - **经验法则**:时间步长应覆盖降水过程典型生命周期(如台风影响周期约72小时) --- 通过这种时间维度处理,神经网络可以同时学习降水场的**空间分布模式**和**时间演变规律**,例如识别移动中的雨带或持续性强降雨过程,显著提升降水估算的时空准确性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值