pytorch中model.parameters()和model.state_dict()使用时的区别

原创

已于 2022-03-19 22:23:36 修改 · 8.2k 阅读

·

17

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#pytorch #深度学习 #人工智能 #联邦学习

于 2022-03-18 13:33:31 首次发布

联邦学习模拟实验中涉及模型参数的聚合和广播，需要提取模型参数。这个时候一般有两个选择，model.parameters() 和 model.state.dict()。表面上看这两者的区别只在于 model.parameters() 方法返回的是一个生成器 generator，里面只有模型的参数，而没有对应的网络层名称；而 model.state_dict() 返回的则是一个字典 {key:value}，key 是网络层名称，value 则是该层的参数。

但我实际做实验的时候发现，分别用这两种方法进行聚合的实验结果相去甚远，测试准确率甚至能相差 10 个点以上。

一波网上搜索发现，当模型中有非训练参数时，这两者其实还有区别，即 model.parameters() 只包含可训练参数，而 model.state_dict() 则包含了所有参数。
比如批量归一化层 BN layer 除了 2 个可训练参数 $\alpha$ 和 β 外，还有 running_mean 和 running_var 这2个统计量，而 model.parameters() 是不包含这两个统计量的，只有 model.state_dict() 将这两个统计量包含在其中。
至于是否把这两个统计量纳入聚合的范畴，可以看我之前总结的BN在联邦学习中的应用

所以，如果是用 model.para

最低0.47元/天解锁文章

200万优质内容无限畅学

联邦学习小白

博客等级

码龄7年

47
原创

212
点赞

792
收藏

247
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: softmax与CrossEntropyLoss()，log_softmax与 NLLLoss()

下一篇：: python字典遍历中 key in dict 与 key in dict.keys()的区别

最新评论

持续学习——Continual Learning With Additive Parameter Decomposition
Sonaldoszb: https://github.com/jaehong31/APD
联邦持续学习——Federated Weighted Inter-client Transfer(FedWeIT)
diligent啊豆豆: 博主您好！我想请问的是联邦学习的框架中，不是会对自己私有数据集进行多次训练以及和中心服务器进行数据交换吗？那重复训练的过程中不是相当于数据回放吗？就好比有一个用户有3个任务流需要训练，他训练完这三个任务流以后把模型参数发给中央服务器做模型聚合，然后再获得中央服务器的分发模型以后再做自己本地的这3个任务流的训练，不是本质上相当于就是数据回放吗？
FedFomo论文阅读笔记
成硕，: 你好，请问怎样引用这种会议论文呢，不要预印版的，好难找。
联邦学习——Ditto：同时提升公平性和鲁棒性
DJtui76: lambda是固定的吧，lambda*（本地模型和全局模型的差）这个整体是正则项，括号里面是每轮迭代都在变的所以说动态调整，我是这么认为的
联邦学习——Ditto：同时提升公平性和鲁棒性
noHandFish: 我也想问怎么动态的调整

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

联邦学习小白 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。