针对最近所做工作的一个问题做一些笔记记录。
问题:对一个训练好的模型的权重进行排序, 然后选择top n的特征拿到测试集做预测。
其实就是一个特征选择的问题,同时返回的W并非稀疏矩阵,而且因为还要继续做交叉验证,也不方便输出W进行手动选择、Excel排序或者只输出对应特征名称、行号等。
想到的方法没有什么技术含量,但是易于实现,先记录一下。
# 主要思路:用字典保存W每一行的L2范数以及对应的行号,然后按L2范数进行排序。(每一行对应一个特征)
# 如果将L2范数作为key,则key值有可能重复;
# 因此将key值设为对应行号,value设为对应行的L2范数。
# 按value值对字典排序,然后选取top n。
# 考虑到如果是将top n的权重系数输出则对应的特征也需要重新排列,
# 因此不如将W的非top n改写为0。
所以整体思路其实是做了个人工稀疏?
代码如下:
def top_n():
W = np.array([[1,2,3],
[4,5,6],
[1,1,1],
[2,3,6],
[7,8,9],
[9,6,4]])
print(W.shape)
W_l2 = {}
# 计算L2范数
for i in range(len(W)):
W_l2[i] = norm(W[i], ord=2)
W_l2 = sorted(W_l2.items(), key=lambda kv: (kv[1], kv[0])) # 返回其实是一个list
print(W_l2)
n = len(W_l2)
top = [1, 2, 3, 4, 5]
for i in range(len(top)):
W_copy = W.copy()
print('top',i+1,':')
n_top = top[i]
for j in range(n-n_top):
W_copy[W_l2[j][0]] = 0
print(W_copy)
输出如下:
(6, 3)
[(2, 1.7320508075688772), (0, 3.7416573867739413), (3, 7.0), (1, 8.774964387392123), (5, 11.532562594670797), (4, 13.92838827718412)]
top 1 :
[[0 0 0]
[0 0 0]
[0 0 0]
[0 0 0]
[7 8 9]
[0 0 0]]
top 2 :
[[0 0 0]
[0 0 0]
[0 0 0]
[0 0 0]
[7 8 9]
[9 6 4]]
top 3 :
[[0 0 0]
[4 5 6]
[0 0 0]
[0 0 0]
[7 8 9]
[9 6 4]]
top 4 :
[[0 0 0]
[4 5 6]
[0 0 0]
[2 3 6]
[7 8 9]
[9 6 4]]
top 5 :
[[1 2 3]
[4 5 6]
[0 0 0]
[2 3 6]
[7 8 9]
[9 6 4]]
这里没有对输出进行详细的检测,只是做了一个简单的代码测试,具体应用还要等整个pipeline完成后再看。
写字典排序的时候忘记了Python这个sort()函数,所以才特地记录一下。同时在菜鸟教程中也有按键(key)对字典进行排序的例子。
同时,在对W_copy赋值时一定不能是直接赋值,而应该是拷贝,至于深拷贝和浅拷贝等下次有时间详细了解了再来写一篇笔记吧。
参考:
https://www.runoob.com/python3/python-sort-dictionaries-by-key-or-value.html