Cumsum :计算轴向元素累加和,返回由中间结果组成的数组
第一部分:求累计次数(转自https://blog.youkuaiyun.com/qq_22238533/article/details/72900634)
本文主要是针对 cumsum函数的一些用法。具体应用场景看下面的数据集。
第一列是userID,第二列是安装的时间,第三列是安装的次数。
我们现在想做一件事情。就是统计用户在某一天前累计的安装次数。
譬如,对userID为20的用户,问在16天前,其安装次数为多少? 答案应该是4次。用python的实现也很简单。
又譬如,userID为44在19天前安装的次数,那就应该是1+3+1+1=6次。
具体代码:(假设数据集为data)
由于是针对每个userID,所以是需要将userID划分一下(这个方法在组内排序的时候有提到,可以参考前面的文章)。
所以才有下面这一句
groupby(['userID'])
然后,分完组后需要统计的Times,所以就是下面这一句
data['Times'].groupby(['userID'])
最后,我们需要的是累加量,所以,用cumsum()这个函数。
data['sum_Times']=data['Times'].groupby(['userID']).cumsum()
用得到的结果放在一列。
最后得到结果如下:
可以从sum_Times这列看到,每一个值都是相应userID在前一行的累加值。
第二部分:返回由中间结果组成的数组
shape | 索引 |
2 | 0 |
2 | 1 |
3 | 2 |
import numpy as np
arr = np.array([[[1,2,3],[8,9,12]],[[1,2,4],[2,4,5]]])
print(arr.cumsum(0))
print(arr.cumsum(1))
print(arr.cumsum(2))
输出结果:
#cumsum(0)
[[[ 1 2 3]
[ 8 9 12]]
[[ 2 4 7]
[10 13 17]]]
#cumsum(1)
[[[ 1 2 3]
[ 9 11 15]]
[[ 1 2 4]
[ 3 6 9]]]
#cumsum(2)
[[[ 1 3 6]
[ 8 17 29]]
[[ 1 3 7]
[ 2 6 11]]]
import numpy as np
arr = np.arange(32).reshape((2,2,2,4))
print(arr)
print(arr.cumsum(0))
print(arr.cumsum(1))
print(arr.cumsum(2))
print(arr.cumsum(3))
arr: ## arr是一个2*2*2*4四维矩阵,索引值为0,1,2,3
[[[[ 0 1 2 3]
[ 4 5 6 7]]
[[ 8 9 10 11]
[12 13 14 15]]]
[[[16 17 18 19]
[20 21 22 23]]
[[24 25 26 27]
[28 29 30 31]]]]
[[[ 0 1 2 3]
[ 4 5 6 7]]
[[ 8 9 10 11]
[12 13 14 15]]]
[[[16 17 18 19]
[20 21 22 23]]
[[24 25 26 27]
[28 29 30 31]]]]
结果:[[[[ 0 1 2 3]
[ 4 5 6 7]]
[[ 8 9 10 11]
[12 13 14 15]]]
[[[16 18 20 22]
[24 26 28 30]]
[[32 34 36 38]
[40 42 44 46]]]]
cumsum(1):实现1轴上的累加即:以次外面元素为单位,累加以下四个[[ 0 1 2 3]
[ 4 5 6 7]]
[[ 8 9 10 11]
[12 13 14 15]]
[[16 17 18 19]
[20 21 22 23]]
[[24 25 26 27]
[28 29 30 31]]
[[[[ 0 1 2 3]
[ 4 5 6 7]]
[[ 8 10 12 14]
[16 18 20 22]]]
[[[16 17 18 19]
[20 21 22 23]]
[[40 42 44 46]
[48 50 52 54]]]]