
机器学习
文章平均质量分 93
謙卑
这个作者很懒,什么都没留下…
展开
-
理解人工神经网络,感知机模型、多层前馈神经网络、BP算法(反向传播算法)、输出层和隐含层梯度下降更新权值推导过程。(西瓜书笔记)
理解人工神经网络,感知机模型、多层前馈神经网络、BP算法(反向传播算法)、输出层和隐含层梯度下降更新权值推导过程。(西瓜书笔记)(一)神经元模型 神经网络(neural networks): 神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。 我们在机器学习中谈论神经网络时指的是“神经网络学习”,或者说,是机器学习与神经网络这两个学科领域的交叉部分。1.M-P神经元模型 M-P神经元模型: 神经元接收到来自原创 2021-08-16 23:46:26 · 3098 阅读 · 0 评论 -
决策树、理解信息熵、信息增益(ID3)、增益率(C4.5)、基尼指数(CART)、预剪枝、后剪枝、多变量决策树
决策树、理解信息熵、信息增益(ID3)、增益率(C4.5)、基尼指数(CART)、预剪枝、后剪枝、多变量决策树(一)基本流程 决策树(decision tree): 一般的,一棵决策树包含一个根结点、若干个内部结点和若干个叶结点;叶结点对应于决策结果,其他每个结点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根结点包含样本全集.从根结点到每个叶结点的路径对应了一个判定测试序列.决策树学习的目的是为了产生一棵泛化能力强,即处理未见示例能力强的决策树,其基本流程遵循原创 2021-08-15 10:48:08 · 3652 阅读 · 1 评论 -
线性模型——最小二乘法,梯度下降,线性回归,logistic回归
线性模型——最小二乘法,梯度下,线性回归,logistic回归(一)基本形式 线性模型: 给定d个属性描述的示例X = (x1;x2;……;xd)(X为列向量),xi是第i个属性上的取值。 线性模型(linear model)试图学得一个通过属性的线性组合进行预测的函数。f(X)=w1x1+w2x2+…+wdxd+bf(X) = w_1x_1 + w_2x_2+…+w_dx_d+bf(X)=w1x1+w2x2+…+wdxd+b向量形式:f(X)=WTX+bf(X)=W^原创 2021-08-13 23:53:06 · 3297 阅读 · 5 评论 -
深入理解ROC曲线的定义以及绘制ROC曲线过程,其与模型性能的关系,以及AUC
深入理解ROC曲线的定义以及绘制ROC曲线过程,其与模型性能的关系,以及AUC很多学习器是为测试样本产生一个实值或者是概率预测,然后将这个预测值和一个分类阈值(threshold)进行比较。若大于阈值,则为正类;反之为负类。根据这个学习器计算出来得预测值,我们可以将测试样本进行排序,“最可能”是正例的放在最前面,“最不可能”是正例的排在最后面,这样分类过程就相当于在这个排序中的某个”截断点”(cut point)将样本呢分为两类,前一部分为正例,后一部分为反例。前面有precision和recall,可原创 2021-08-11 18:21:45 · 41196 阅读 · 0 评论 -
深入理解Precision(查准率)、Recall(查全率/召回率)、F1-Score、P-R曲线和micro和macro方法,以及多分类问题P-R曲线
深入理解Precision(查准率)、Recall(查全率/召回率)、F1-Score、P-R曲线和micro和macro方法,以及多分类问题P-R曲线1.回归问题 回归问题最常用的性能度量是“均方误差”(mean squared error)。 给定D = {(x1, y1), (x2, y2),……,(xm, ym)},其中yi是示例xi的真实标记;要评估学习器f的性能,要把学习器预测结果和f(x)与真实标记y比较:E(f;D)=1m∑n=1m(f(xi)−yi)2E(f;D)原创 2021-08-11 18:16:31 · 4407 阅读 · 2 评论 -
读西瓜书笔记(二)模型评估与选择
读西瓜书笔记(二)模型评估与选择(一)误差与过拟合1.经验误差(empirical error)/训练误差(training error)与泛化误差(generalization error) 错误率(error rate): 通常我们把分类错误的样本数占样本总数的比例称为“错误率"。 精度(accuracy): 精度 = 1 - 错误率。即如果我们在m个样本中有a个样本分类错误,则错误率为E = a / m;相应的,1 - a / m 称为精度。 误差(error): 我们原创 2021-08-07 21:45:13 · 1349 阅读 · 0 评论 -
深度理解hold-out Method(留出法)和K-fold Cross-Validation(k折交叉验证法)
模型评估(Model Evaluation)1.测试集(testing set) 测试集(testing set): 通常,我们可通过实验测验来对学习器的泛化误差进行评估并进而做出选择,为此,需要一个“测试集”来测试学习器对新样本的判别能力。然后以测试集上的“测试误差”(testing error)作为泛化误差的近似。 通常我们假设测试样本也是从样本真实分布中独立同分布采样而得到。但需要注意的是,测试集应该尽可能与训练集互斥,即测试样本尽量不在训练集中出现,未在训练过程中使用过。原创 2021-08-06 00:09:51 · 19090 阅读 · 0 评论 -
机器学习中理解过拟合,训练集、验证集、测试集,模型评估、模型选择,Hold-out Method(留出法)K-fold Cross-Validation(k折交叉验证法)
读西瓜书笔记(二)模型评估与选择(一)误差与过拟合1.经验误差(empirical error)/训练误差(training error)与泛化误差(generalization error) 错误率(error rate): 通常我们把分类错误的样本数占样本总数的比例称为“错误率"。 精度(accuracy): 精度 = 1 - 错误率。即如果我们在m个样本中有a个样本分类错误,则错误率为E = a / m;相应的,1 - a / m 称为精度。 误差(error): 我们原创 2021-08-05 23:54:22 · 6712 阅读 · 0 评论 -
读西瓜书笔记(一)绪论
读西瓜书笔记(一)绪论(一)什么是机器学习机器学习致力于研究如何通过计算的手段,利用经验来改善自身的性能。机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即“学习算法”,有了学习算法,我们把经验数据提供给学习算法,它就能基于这些数据产生模型,在面对新的情况时,模型就会给出相应的判断。有文献用“模型”指全局性结果(如一颗决策树),而用“模式”指局部性结果通俗的理解机器学习(买西瓜)要通俗理解机器学习,可以用根据书上给的一个很好的例子,首先经验是我们人经常用的东西,但是机器没有原创 2021-08-04 14:31:48 · 323 阅读 · 0 评论