apply筛选 pandas_如何做pandas数据筛选的性能优化

最新推荐文章于 2024-01-18 16:22:52 发布

原创最新推荐文章于 2024-01-18 16:22:52 发布 · 227 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#apply筛选 pandas

这篇博客探讨了如何优化Pandas中使用`apply`进行数据筛选的性能问题。代码分析显示，主要时间消耗在数据筛选操作上，针对4个规则条件执行需要30-50秒。随着规则数量增加，性能瓶颈将加剧。文章寻求针对这种情况的性能优化策略。

Function: digg_data_byrule at line 56

Line # Hits Time Per Hit % Time Line Contents

==============================================================

56 def digg_data_byrule(df,rules):

57 1546 1398.0 0.9 0.0 info=""

58 7730 6465.0 0.8 0.0 for rule in rules:

59 6184 2076181.0 335.7 9.4 date_list=utils.datelist(rule[0],rule[1])

60 6184 9205.0 1.5 0.0 days = len(date_list)

61 6184 4966183.0 803.1 22.6 temp_df = df[df["data_date"].isin(date_list)]

62 6184 7782.0 1.3 0.0 flag = False

63 6184 20854.0 3.4 0.1 if len(temp_df) == days:

64 3100 2613.0 0.8 0.0 temp_array = []

65 16960 13525.0 0.8 0.1 for d in date_list:

66 13860 14703156.0 1060.8 66.9 temp = temp_df[rule[2]][temp_df["data_date"] == d]

67 13860 72778.0 5.3 0.3 if len(temp) > 0:

68 13860 62733.0 4.5 0.3 temp_array.append(temp.values[0])

69 7102 8265.0 1.2 0.0 for i in range(len(temp_array)):

70 7048 4693.0 0.7 0.0 if i > 0:

71 3948 9257.0 2.3 0.0 if (temp_array[i] - temp_array[i - 1]) / temp_array[i - 1] > rule[4]:

72 902 608.0 0.7 0.0 flag = True

73 else:

74 3046 1805.0 0.6 0.0 flag = False

75 3046 2206.0 0.7 0.0 break

76 6184 4376.0 0.7 0.0 if flag==True:

77 54 181.0 3.4 0.0 info += "%s:%s:%d:%.2f;" % (rule[3], rule[2], len(date_list), rule[4])

78 1546 874.0 0.6 0.0 return info

Total time: 40.1706 s

File: test.py

Function: main_test at line 16

def digg_data2(df,rules):

temp_df= df.groupby("product_id").apply(digg_data_byrule,rules)

temp_df=temp_df[temp_df!=""].reset_index()

temp_df.rename(columns={0:"flag"},inplace=True)

temp_df=temp_df.set_index("product_id")

return temp_df.to_dict("index")

def digg_data_byrule(df,rules):

info=""

for rule in rules:

date_list=utils.datelist(rule[0],rule[1])

days = len(date_list)

temp_df = df[df["data_date"].isin(date_list)]

flag = False

if len(temp_df) == days:

temp_array = []

for d in date_list:

temp = temp_df[rule[2]][temp_df["data_date"] == d]

if len(temp) > 0:

temp_array.append(temp.values[0])

for i in range(len(temp_array)):

if i > 0:

if (temp_array[i] - temp_array[i - 1]) / temp_array[i - 1] > rule[4]:

flag = True

else:

flag = False

break

if flag==True:

info += "%s:%s:%d:%.2f;" % (rule[3], rule[2], len(date_list), rule[4])

return info

rules = [

(max_date - timedelta(days=5), max_date, "product_add_cart", "increase_percent", 0.25),

(max_date - timedelta(days=5), max_date, "amount", "increase_percent", 0.25),

(max_date - timedelta(days=2), max_date, "product_add_cart", "increase_percent", 0.15),

(max_date - timedelta(days=2), max_date, "amount", "increase_percent", 0.15),

]

data = pd.read_sql(sql, db.engine)

data = data.groupby(['data_date', 'product_id']).sum().reset_index()

temp1 = digg_data2(data, rules)

temp_df = df[df["data_date"].isin(date_list)]

temp = temp_df[rule[2]][temp_df["data_date"] == d]

整个代码主要的时间消耗都在dataframe的以上两句数据筛选上了。

目前的仅仅是四个条件的筛选rule下，执行大概需要30-50秒左右，请问有什么好的优化方法吗？

因为后续可能会添加到10多个甚至更多的rule去综合筛选。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。