Cumsum :计算轴向元素累加和,返回由中间结果组成的数组
第一部分:求累计次数(转自https://blog.youkuaiyun.com/qq_22238533/article/details/72900634)
本文主要是针对 cumsum函数的一些用法。具体应用场景看下面的数据集。
第一列是userID,第二列是安装的时间,第三列是安装的次数。
我们现在想做一件事情。就是统计用户在某一天前累计的安装次数。
譬如,对userID为20的用户,问在16天前,其安装次数为多少? 答案应该是4次。用python的实现也很简单。
又譬如,userID为44在19天前安装的次数,那就应该是1+3+1+1=6次。
具体代码:(假设数据集为data)
由于是针对每个userID,所以是需要将userID划分一下(这个方法在组内排序的时候有提到,可以参考前面的文章)。
所以才有下面这一句
groupby(['userID'])
然后,分完组后需要统计的Times,所以就是下面这一句
data['Times'].groupby(['userID'])
最后,我们需要的是累加量,所以,用cumsum()这个函数。
data['sum_Times']=data['Times'].groupby(['userID']).cumsum()
用得到的结果放在一列。
最后得到结果如下:
可以从sum_Times这列看到,每一个值都是相应userID在前一行的累加值。
第二部分:返回由中间结果组成的数组
定义一个2*2*3的数组,所以其shape是2,2,3,索引分别0,1,2
shape | 索引 |
2 | 0 |
2 | 1 |
3 | 2 |
import numpy as np
arr = np.array([[[1,2,3],[8,9,12]],[[1,2,4],[2,4,5]]])
print(arr.cumsum(0))
print(arr.cumsum(1))
print(arr.cumsum(2))
输出结果:
#cumsum(0)
[[[ 1 2 3]
[ 8 9 12]]
[[ 2 4 7]
[10 13 17]]]
#cumsum(1)
[[[ 1 2 3]
[ 9 11 15]]
[[ 1 2 4]
[ 3 6 9]]]
#cumsum(2)
[[[ 1 3 6]
[ 8 17 29]]
[[ 1 3 7]
[ 2 6 11]]]
注释:
arr是一个2*2*3三维矩阵,索引值为0,1,2
cumsum(0):实现0轴上的累加:以最外面的数组元素为单位,以[[1,2,3],[8,9,12]]为开始实现后面元素的对应累加
cumsum(1):实现1轴上的累加:以中间数组元素为单位,以[1,2,3]为开始,实现后面元素的对应累加
cumsum(2):实现2轴上的累加:以最里面的元素为累加单位,即1为开始,实现后面的元素累加
四维数组实现
下面看一个四维数组2*2*2*4,索引值为0,1,2,3
import numpy as np
arr = np.arange(32).reshape((2,2,2,4))
print(arr)
print(arr.cumsum(0))
print(arr.cumsum(1))
print(arr.cumsum(2))
print(arr.cumsum(3))
arr: ## arr是一个2*2*2*4四维矩阵,索引值为0,1,2,3
[[[[ 0 1 2 3]
[ 4 5 6 7]]
[[ 8 9 10 11]
[12 13 14 15]]]
[[[16 17 18 19]
[20 21 22 23]]
[[24 25 26 27]
[28 29 30 31]]]]
cumsum(0):实现0轴上的累加即:以最外面数组元素为单位即以下两个的
对应位置元素相加起来
[[[ 0 1 2 3]
[ 4 5 6 7]]
[[ 8 9 10 11]
[12 13 14 15]]]
[[[16 17 18 19]
[20 21 22 23]]
[[24 25 26 27]
[28 29 30 31]]]]
结果:
[[[[ 0 1 2 3]
[ 4 5 6 7]]
[[ 8 9 10 11]
[12 13 14 15]]]
[[[16 18 20 22]
[24 26 28 30]]
[[32 34 36 38]
[40 42 44 46]]]]
cumsum(1):实现1轴上的累加即:以次外面元素为单位,累加以下四个
[[ 0 1 2 3]
[ 4 5 6 7]]
[[ 8 9 10 11]
[12 13 14 15]]
[[16 17 18 19]
[20 21 22 23]]
[[24 25 26 27]
[28 29 30 31]]
累计过程产生的中间结果要记录到数组中,所以,结果:
[[[[ 0 1 2 3]
[ 4 5 6 7]]
[[ 8 10 12 14]
[16 18 20 22]]]
[[[16 17 18 19]
[20 21 22 23]]
[[40 42 44 46]
[48 50 52 54]]]]
cumsum(2)就对应从[ 0 1 2 3]数组元素开始实现累加,然后记录中间结果
cumsum(3)对应的是从最里面最小的数组元素,即从0开始实现累加,记录中间结果