防止过拟合的方法，及dropout实现原理 - 面试篇

最新推荐文章于 2024-01-16 17:17:36 发布

机智翔学长

最新推荐文章于 2024-01-16 17:17:36 发布

阅读量1.7k

点赞数 5

CC 4.0 BY-SA版权

分类专栏：算法机器学习面试深度学习文章标签：防止过拟合 dropout 算法面试机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/GreatXiang888/article/details/99310164

这个比较简单，但也记录一下。（要深入起来也不容易呀）

问：怎么防止过拟合？[头条，百度，boss直聘]

早停 Early stopping
Early stopping方法的 具体做法 是，在每一个Epoch结束时（一个Epoch集为对所有的训练数据的一轮遍历）计算validation data的accuracy，当accuracy不再提高时，就停止训练。
一般的做法是，在训练的过程中，记录到目前为止最好的validation accuracy，当连续10次Epoch（或者更多次）没达到最佳accuracy时，则可以认为accuracy不再提高了。此时便可以停止迭代了（Early Stopping）。
数据集扩增
“有时候往往拥有更多的数据胜过一个好的模型。” 因为我们在使用训练数据训练模型，通过这个模型对将来的数据进行拟合，而在这之间又一个假设：训练数据与将来的数据是独立同分布的。
更多的数据有时候更优秀。但是往往条件有限，如人力物力财力的不足，而不能收集到更多的数据。
（问：采用什么样的方法可以降低获取数据的成本？）
半监督，或无监督学习。先聚类得到大致的类别，再人工标注。
常见的六大聚类算法
（有机会我再总结一下）

数据集扩增需要得到更多的和已有的数据是独立同分布的，或者近似独立同分布的数据。
一般有以下方法：
a 从数据源采集更多数据
b 复制原有数据并加上随机噪声
（有时候噪声是有用的，可以防止过拟合，因为它更能模拟真实的输入，比如手写数字样本，有的人数字写的不好，但又不能算错）<个人理解>
c 重采样
d 根据当前数据集估计数据分布参数，使用该分布产生更多数据等
e 如果是图片，可以做一些旋转，镜像，缩放等操作。
正则化
在进行目标函数或代

最低0.47元/天解锁文章

200万优质内容无限畅学

机智翔学长

博客等级

码龄7年

108
原创

396
点赞

1271
收藏

538
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 常见激活函数，及其优缺点 - 面试篇

下一篇：: 算法真题01 - 从n个数中等概率抽取m个数，抽奖程序

最新评论

Scrapy+MongoDB爬虫实例教程
北风之神c: 你这个scrapy爬虫总结的很全面很有条理，写得好赞，博主用心了！我也踩过 scrapy 的坑，后来无意中发现了个宝藏项目，必须推荐：但是scrapy来爬虫非常麻烦，写法难度高，国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c8.html ，只需要@boost一行代码，加到任意新/旧爬虫项目就又强又自由又简单。此框架如果用于爬虫，不管从任何方面比较可以领先scrapy 20年，因为从根本理念上对scrapy api方式的框架造成巨大的降维打击。昔有Scrapy窃据神器，挟Twisted之技而令诸侯，然其框架繁苛，回调如狱，岁月更迭，其势已衰，其道已孤，弊病丛生，开发者苦之久矣！今有Funboost，顺天应人，聚函数神力，携`@boost`之雷霆，以大道至简之义，破枷锁，扫陈规，伐无道，正本清源，布告天下！此诚不可逆之大势也！依托于funboost的强大可视化管理，不登录机器可以轻松掌控分布式大规模爬虫运行状态，一目了然。可视化截图： https://funboost.readthedocs.io/zh-cn/latest/articles/c13.html Scrapy十败如山崩，Funboost十胜如日升！ funboost剑锋所指，scrapy框架枷锁必将斩断！函数光辉，普照四海！ pip install funboost
HanLP分词+用户自定义词典
M.D: 单独建my_dict.txt，一直不成功，只能在原来的CustomDictionary.txt 后面追加了，请问单独建my_dict.txt操作需要注意什么吗？
B08.python智能盯盘 + 声音报警 - 有意思的小东西【黑科技】
weixin_46048774: 请问能不能对外盘期货盯盘？比如标普股指期货、美原油、炎黄金？
HanLP分词+用户自定义词典
Jonathan Star: java的怎么办
python操作ElasticSearch-创建、插入、检索
花甫: docker部署的es8.11.0,curl可以访问通，但用python 模块连接就会报错，链接失败

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。