
机器学习
pao___pao
没个性,不签名
展开
-
Linear Regression
假设函数: 损失函数: 正规方程求:(Normal Equation无需迭代,无需选取值;但是不适合特征数量n > 10000的情况,求逆时间复杂度O()) 梯度下降迭代更新:(其中j = 0,1,2......n) { } 梯度下降的矩阵方式:(X为m*(n+1)矩阵,Y为m*1维输出向量) 还有些高级优化算法求,共轭梯度(PC...原创 2019-01-29 12:04:11 · 334 阅读 · 0 评论 -
Logistic Regression
假设函数:(表示P{y=1 | x;}) 损失函数: 梯度下降迭代更新: { }原创 2019-01-29 12:23:30 · 132 阅读 · 0 评论 -
Regularization
如果没有足够的数据集约束过多特征的模型,就会发生过拟合。 解决过拟合通常有两个方法:减少特征数量;正则化 根据正则化项不同可分为L1正则化和L2正则化,线性回归的L1正则化叫Lasso回归,L2正则化叫Ridge回归 线性回归: 梯度下降迭代更新:(其中j = 1,2......n ; ) { } ...原创 2019-01-29 21:17:30 · 530 阅读 · 0 评论 -
Gradient Descent
梯度下降可分为BGD,SGD,MBGD 算法注意事项: 步长选择过小,迭代速度慢;选择过大,有可能不收敛 GD求的只是局部最小值,最好多次用不同的初值计算,选择最小的那个 由于样本不同特征的取值范围不一样,可能导致迭代很慢,可以对特征数据归一化 和牛顿法/拟牛顿法相比,两者都是迭代求解,不过梯度下降法是梯度求解,而牛顿法/拟牛顿法是用二阶的海森矩阵的逆矩阵或伪逆矩阵求解。相对而言,使用牛...原创 2019-01-29 21:59:58 · 711 阅读 · 0 评论 -
Native Bayes
d为属性数目,xi为x在第i个属性上的取值。对于特定样本,分母是相同的,取分子最大的类别. 对于离散属性: 对于连续属性(假设概率密度函数服从正态分布,和分别为c类样本在第i个属性上取值的均值和方差): 为了避免其他属性携带的信息被训练集中未出现的属性值抹去,在估计概率值时通常要进行平滑,即拉普拉斯修正。其中N为训练集D中可能的类别数,Ni表示第i个属性可能的取值数 ,...原创 2019-02-23 20:55:44 · 551 阅读 · 0 评论 -
Decision Tree
决策树算法既可用于分类也可用于回归,常见的三个版本:ID3,C4.5,CART。scikit-learn使用了优化版的CART算法作为其决策树算法的实现。 ID3: 信息熵表示了信息的混乱程度: 信息增益: 比如我们有15个样本D,输出为0(6个)或者1(9个)。 样本有个特征A,取值为A1(5个),A2(5个),A3(5个)。在取值为A1的样本的输出中,有3个输出为1, 2个输出...原创 2019-02-23 22:20:22 · 165 阅读 · 0 评论