
深度学习小常识
文章平均质量分 74
echo_1994
不想当算法工程师的程序员不是好的医生
展开
-
1、 深度学习或机器学习中如何防止模型过拟合和欠拟合?
小常识1 深度学习或机器学习中如何防止模型过拟合和欠拟合?图1 过拟合和欠拟合概念解释:过拟合:训练的模型在训练集上面的表现很好,但是在验证集上面的表现很差,即模型的泛华能力较差,如图1中的Overfitting;欠拟合:训练的模型在训练集上面的表现很差,在验证集上面的表现也很差,如图1中的Underfitting; 原因分析过拟合:1. 最本质原因是“训练的模型太复杂,即模型记住了某些并不通用的...转载 2018-07-10 11:56:47 · 1364 阅读 · 0 评论 -
小常识2-机器学习数据预处理
小常识2-机器学习数据预处理机器学习里有一句名言:数据和特征决定了机器学习的上限,而模型和算法的应用只是让我们逼近这个上限。 主要包括三部分:一是获取数据、数据抽样二是数据探索三是数据预处理与清洗 获取数据,数据抽样如何保证取样数据的质量?是否在足够范围内有代表性?数据样本取多少合适?如何分类(训练集、测试集、验证集)等等。当要处理或者要分析的数据量比较大可以使用抽样技术:1. 简单随机抽...转载 2018-07-10 12:00:01 · 437 阅读 · 0 评论 -
小常识10: 循环神经网络(RNN)与长短时记忆网络LSTM简介。
小常识10: 循环神经网络(RNN)与长短时记忆网络LSTM简介。 本文目的:在计算机视觉(CV)中,CNN 通过局部连接/权值共享/池化操作/多层次结构逐层自动的提取特征,适应于处理如图片类的网格化数据。在自然语言处理(NLP)中,循环神经网络被设计用于处理序列的神经网络,如应用 RNN 在语音识别,语言建模,翻译等。同时,现有的计算机视觉研究开始结合CNN与RNN的使用,应用于视频目标检测,...转载 2018-07-11 22:24:05 · 2853 阅读 · 0 评论 -
小常识3-深度学习常见梯度下降优化方法总结
1. 三种梯度下降优化框架有三种梯度下降算法框架,它们不同之处在于每次学习(更新模型参数)使用的样本个数,每次更新使用不同的样本会导致每次学习的准确性和学习时间不同。全量梯度下降(Batch gradient descent):每次使用全量的训练集样本来更新模型参数;随机梯度下降(Stochastic gradient descent):每次从训练集中随机选择一个样本来进行学习小批...转载 2018-08-11 14:54:52 · 1107 阅读 · 0 评论 -
小常识5-stacking和blending模型融合方法详解
小常识5-stacking和blending模型融合方法详解对于机器学习和深度学习来说,用单模型的效果往往都没有进行模型融合后的效果好。对模型来说,我们需要选择具有多样性,准确性的模型,对于融合的方式来说也有很多种,比如最简单的取平均或者投票法就是一种。这里主要讲一下stacking和blending,二者都是用了两层的模型。blendingbending是一种模型融合方法,对于一...转载 2018-08-11 15:12:11 · 9378 阅读 · 1 评论 -
在调参时xgboost/gbdt为什么树的深度很少就能达到很高的精度?
在调参时xgboost/gbdt为什么树的深度很少就能达到很高的精度? RF和GBDT都是属于集成学习的范畴。集成学习下有两个重要的策略Bagging和Boosting。一句话的解释,来自周志华老师的机器学习教科书:Boosting主要关注降低偏差,因此Boosting能基于泛化性能相当弱的学习器构建出很强的集成;Bagging主要关注降低方差,因此它在不剪枝的决策树、神经网络等学习器上效用...转载 2018-08-11 15:24:51 · 1033 阅读 · 0 评论 -
小常识27:Batch Normalization 的原理与作用
小常识27:Batch Normalization 的原理与作用(阿里达摩一面基础题——机器学习2019届内推)1、Batch Normalization的本质思想BN的基本思想其实相当直观:因为深层神经网络在做非线性变换前的激活输入值(Y=Wx+B,x是输入)随着网络深度加深或者在训练过程中,其分布逐渐发生偏移或者变动,之所以训练收敛慢,一般是整体分布逐渐往非线性函数的取值区间的上下...原创 2018-08-15 16:23:52 · 786 阅读 · 3 评论