字典排序

针对最近所做工作的一个问题做一些笔记记录。

问题:对一个训练好的模型的权重进行排序, 然后选择top n的特征拿到测试集做预测。
其实就是一个特征选择的问题,同时返回的W并非稀疏矩阵,而且因为还要继续做交叉验证,也不方便输出W进行手动选择、Excel排序或者只输出对应特征名称、行号等。
想到的方法没有什么技术含量,但是易于实现,先记录一下。

# 主要思路:用字典保存W每一行的L2范数以及对应的行号,然后按L2范数进行排序。(每一行对应一个特征)
# 如果将L2范数作为key,则key值有可能重复;
# 因此将key值设为对应行号,value设为对应行的L2范数。
# 按value值对字典排序,然后选取top n。
# 考虑到如果是将top n的权重系数输出则对应的特征也需要重新排列,
# 因此不如将W的非top n改写为0。

所以整体思路其实是做了个人工稀疏?
代码如下:

def top_n():
    W = np.array([[1,2,3],
                  [4,5,6],
                  [1,1,1],
                  [2,3,6],
                  [7,8,9],
                  [9,6,4]])
    print(W.shape)
    W_l2 = {}

    # 计算L2范数
    for i in range(len(W)):
        W_l2[i] = norm(W[i], ord=2)

    W_l2 = sorted(W_l2.items(), key=lambda kv: (kv[1], kv[0]))  # 返回其实是一个list
    print(W_l2)
    n = len(W_l2)
    top = [1, 2, 3, 4, 5]
    for i in range(len(top)):
        W_copy = W.copy()
        print('top',i+1,':')
        n_top = top[i]
        for j in range(n-n_top):
            W_copy[W_l2[j][0]] = 0
        print(W_copy)

输出如下:

(6, 3)
[(2, 1.7320508075688772), (0, 3.7416573867739413), (3, 7.0), (1, 8.774964387392123), (5, 11.532562594670797), (4, 13.92838827718412)]
top 1 :
[[0 0 0]
 [0 0 0]
 [0 0 0]
 [0 0 0]
 [7 8 9]
 [0 0 0]]
top 2 :
[[0 0 0]
 [0 0 0]
 [0 0 0]
 [0 0 0]
 [7 8 9]
 [9 6 4]]
top 3 :
[[0 0 0]
 [4 5 6]
 [0 0 0]
 [0 0 0]
 [7 8 9]
 [9 6 4]]
top 4 :
[[0 0 0]
 [4 5 6]
 [0 0 0]
 [2 3 6]
 [7 8 9]
 [9 6 4]]
top 5 :
[[1 2 3]
 [4 5 6]
 [0 0 0]
 [2 3 6]
 [7 8 9]
 [9 6 4]]

这里没有对输出进行详细的检测,只是做了一个简单的代码测试,具体应用还要等整个pipeline完成后再看。

写字典排序的时候忘记了Python这个sort()函数,所以才特地记录一下。同时在菜鸟教程中也有按键(key)对字典进行排序的例子。
同时,在对W_copy赋值时一定不能是直接赋值,而应该是拷贝,至于深拷贝和浅拷贝等下次有时间详细了解了再来写一篇笔记吧。

参考:
https://www.runoob.com/python3/python-sort-dictionaries-by-key-or-value.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值