2020-12-21

博客围绕从字典中筛选出值大于90的id这一需求,介绍了四种实现方式,分别是循环迭代、filter函数、字典解析式和生成器表达式,并给出各方法执行结果及所需时间。总结指出,数据量小时推荐某方法,数据量大且需逐条处理时,生成器是最佳选择。

首先创建一个字典

1
2
3
4
5
import random
import time

d = {str(x): random.randint(60, 100) for x in range(1, 21)}
print(d)

执行结果为:

1
{'16': 61, '3': 66, '17': 70, '10': 82, '1': 71, '18': 89, '5': 83, '4': 97, '19': 77, '12': 92, '8': 73, '11': 74, '15': 60, '13': 68, '20': 80, '7': 62, '2': 99, '6': 85, '14': 83, '9': 87}

现有一个需求, 需要此列表中筛选出值大于90的 id(key) 都有哪些, 以下给出四种实现方式

第一种方法: 循环迭代

1
2
3
4
5
6
7
print(time.time())
d2 = {}
for k in d:
    if d[k] > 90:
        d2[k] = d[k]
print(time.time())
print(d2)

执行结果为:

1
2
3
1500951937.126503
1500951937.126532
{'12': 92, '2': 99, '4': 97}

得到结果需要的时间为: 0.000029

第二种方法: filter 函数

1
2
3
4
print(time.time())
d5 = list(filter(lambda x: d[x] > 90, d))
print(time.time())
print(d5)

执行结果为:

1
2
3
1500951937.126604
1500951937.126618
['4', '12', '2']

得到结果需要的时间为: 0.000014

第三种方法: 字典解析式

1
2
3
4
print(time.time())
d3 = {k:v for k,v in d.items() if v > 90}
print(time.time())
print(d3)

执行结果为:

1
2
3
1500951937.126555
1500951937.126564
{'12': 92, '2': 99, '4': 97}

得到结果需要的时间为: 0.000009

第四种方法: 生成器表达式

1
2
3
4
5
print(time.time())
d4 = ({k: v} for k, v in d.items() if v > 90)
print(time.time())
for i in d4:
    print(i)

执行结果为:

1
2
3
4
5
1500951937.126576
1500951937.126581
{'4': 97}
{'12': 92}
{'2': 99}

得到结果需要的时间为: 0.000005

总结:

在字典数据量较小时, 依然推荐使用字典解析式去筛选数据, 在数据量较大且数据需要一条一条处理时, 生成器依然是最佳的选择

你遇到的问题是: > **SPI 输出的时间尺度不对,比如 `window_start` 和 `window_end` 的时间跨度看起来不是30天。** 我们来看你的输出示例: ``` dekad_start window_start window_end 2020-01-21 2019-12-23 2020-01-31 ``` 这里 `window_start = 2019-12-23`, `window_end = 2020-01-31`,这显然不是一个30天的窗口,而是一个月的跨度,说明你的 **SPI窗口定义逻辑出现了问题**。 --- ## ❗问题定位:窗口定义错误 你在代码中这样定义窗口: ```python window_end = dekad_start window_start = dekad_start - pd.Timedelta(days=29) ``` 但你在筛选窗口数据时却用了: ```python window_data = df[(df['date'] > window_start) & (df['date'] <= dekad_end)] ``` ### ✅ 正确逻辑应是: ```python window_data = df[(df['date'] >= window_start) & (df['date'] <= window_end)] ``` 因为你定义了: ```python window_end = dekad_start window_start = dekad_start - pd.Timedelta(days=29) ``` 所以窗口应该是: ``` [dekad_start - 29天, dekad_start] ``` 但是你用了 `dekad_end` 作为窗口结束时间,而 `dekad_end` 是 **每旬的结束时间(10日、20日、月底)**,这会导致窗口被错误地扩展到整旬结束日,而不是当前旬的开始日。 --- ## ✅ 正确代码应为: ```python window_end = dekad_start window_start = dekad_start - pd.Timedelta(days=29) window_data = df[(df['date'] >= window_start) & (df['date'] <= window_end)] ``` 而不是: ```python window_data = df[(df['date'] > window_start) & (df['date'] <= dekad_end)] ``` --- ## 🧪 示例说明 以 `dekad_start = 2020-01-21` 为例: ```python window_start = 2020-01-21 - 29天 = 2019-12-23 window_end = 2020-01-21 ``` 正确的窗口是: ``` [2019-12-23, 2020-01-21] # 共30天 ``` 如果你用了 `dekad_end = 2020-01-31`,那么窗口变成了: ``` [2019-12-23, 2020-01-31] # 39天,错误 ``` --- ## ✅ 修改建议(修复窗口筛选逻辑) 将: ```python window_data = df[(df['date'] > window_start) & (df['date'] <= dekad_end)] ``` 改为: ```python window_data = df[(df['date'] >= window_start) & (df['date'] <= window_end)] ``` 同时确保 `window_end = dekad_start` 是正确的。 --- ## ✅ 建议添加调试打印语句 你可以在循环中加入调试信息,帮助你检查窗口是否正确: ```python print(f"dekad_start: {dekad_start}, window_start: {window_start}, window_end: {window_end}") ``` 输出示例: ``` dekad_start: 2020-01-21 00:00:00, window_start: 2019-12-23 00:00:00, window_end: 2020-01-21 00:00:00 ``` 确保 `window_start` 到 `window_end` 确实是30天。 --- ## ✅ 总结 | 问题 | 原因 | 修复方法 | |------|------|-----------| | 时间窗口跨度错误 | 使用了 `dekad_end` 而非 `window_end` | 改为使用 `window_start` 到 `window_end` | | 数据边界错误 | 使用了 `>` 而非 `>=` | 改为 `>= window_start` | | 窗口天数不对 | 没有检查窗口是否正好30天 | 添加调试输出 | --- ##
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值