
机器学习
文章平均质量分 70
机器学习笔记分享
Young_IT
“中国光谷•华为杯”第十九届中国研究生数学建模竞赛(国一)
展开
-
机器学习随记(10)——逻辑回归全方位推导
逻辑回归是一个非线性模型,但是是其背后是以线性回归为理论支撑的。线性模型的表达形式可由下式简化为y的输出范围没有任何限制,即 (−∞,+∞)。而作为一个分类器,我们需要输出的是位于 0 和 1 之间的合法概率值。将“概率”转换为“分类”的工具是“阶梯函数”即转为发生y=1和发生y=0的概率为但是,阶梯函数是不连续的,不可导。因此,使用对数几率函数来在一定程度上近似阶梯函数,将线性回归模型的预测值转化为分类所对应的概率。从另一个角度解释为什么选择的是对数几率函数。原创 2023-05-29 14:41:30 · 1366 阅读 · 0 评论 -
机器学习随记(9)
梯度消失:在深度神经网络中,激活函数(如sigmoid、tanh等)的导数在接近0的区域内取值很小,导致在反向传播时,梯度也变得很小,甚至趋近于0,这会导致模型的学习变得非常缓慢或停滞不前,称为梯度消失问题。在判断过拟合时,可以观察模型的训练集误差和测试集误差,如果训练集误差较小,但测试集误差较大,则说明模型存在过拟合问题。需要注意的是,过拟合和欠拟合不是绝对的,而是相对的,需要根据具体问题和数据特点来选择合适的模型和调整模型的超参数,以提高模型的性能和泛化能力。原创 2023-05-25 11:29:31 · 921 阅读 · 0 评论 -
机器学习随记(8)——各大模型调优方式
可以通过调整优化算法的参数,例如,学习率、迭代次数、批量大小等,来寻找最优的超参数组合。调整样本权重和特征权重:可以通过调整subsample和colsample_bytree参数来控制样本和特征的采样比例,以提高模型的鲁棒性和泛化能力。调整核函数的参数:可以通过调整核函数的超参数,例如,高斯核函数的gamma参数和多项式核函数的degree参数等,来寻找最优的超参数组合。调整迭代次数和批量大小:可以通过调整迭代次数和批量大小来控制模型的训练速度和收敛性能,以提高模型的准确率和泛化能力。原创 2023-05-23 21:35:33 · 1785 阅读 · 0 评论 -
机器学习随记(7)——bootstrap、bagging、boosting、随机森林
是一种统计方法,也是一种思想,简单说就是在所有样本集中进行有放回地抽样,抽取n个样本。如果不清楚样本的分布,bootstrap是一种合适的方法。Bagging方法在训练过程中,各基分 类器之间,可以进行并行训练。其中很著名的算法之一是基于决策树基 分类器的随机森林(Random Forest)。为了让基分类器之间互相独立,将训练集 分为若干子集(当训练样本数量较少时,子集之间可能有交叠)。Bagging方法更 像是一个集体决策的过程,每个个体都进行单独学习,学习的内容可以相同,也 可以不同,也可以部分重叠。原创 2023-05-19 20:15:37 · 954 阅读 · 0 评论 -
机器学习随记(6)—K-means
在不同随机初始化的这些不同解决方案之间进行选择的一种方法是选择具有最低成本函数值(失真)的解决方案。给定每个点到质心的分配,算法的第二阶段为每个质心重新计算分配给它的点的平均值。因此,在实践中,K-means 算法通常使用不同的随机初始化运行几次。然而,收敛的解决方案可能并不总是理想的,并且取决于质心的初始设置。您将在接下来的部分中分别实现 K-means 算法的两个阶段。K-means 算法是一种自动将相似数据点聚集在一起的方法。(ii) 使用分配给它的点重新计算每个质心的平均值。原创 2023-05-11 10:59:41 · 515 阅读 · 0 评论 -
机器学习随记(5)—决策树
手搓决策树:用决策树将其应用于分类蘑菇是可食用还是有毒的任务。原创 2023-05-07 20:35:20 · 583 阅读 · 0 评论 -
机器学习随记(4)
使用sklearn创建高次多项式线性模型 ,在训练集上进行训练。对训练数据进行预测,找出训练误差。预测测试数据,得出测试误差。原创 2023-05-07 15:36:46 · 184 阅读 · 0 评论 -
机器学习随记(3)— Softmax
(简单说就是将softmax整合进loss计算中,并在神经网络最后一层的softmax层变成线性激活层)训练过程中将 softmax 和 loss 结合起来,可以获得更稳定和准确的结果。注意:输出预测不是概率!如果所需的输出是概率,则输出应由 softmax处理!与sigmoid不同,softmax可以多个输出,每个输出以概率的形式表示。Tensorflow 有两种可能的目标值格式,损失的选择定义了预期的格式。这是所有损失的平均值。原创 2023-05-07 11:25:46 · 384 阅读 · 0 评论 -
机器学习随记(2)
tf.keras.layers.Normalization` 是 TensorFlow 中的标准化层,它可以将输入数据标准化为均值为 0,方差为 1 的数据。具体来说,`tf.keras.layers.Normalization` 实现了以下操作:1. 对输入数据进行逐个特征的标准化,即对每个特征计算其均值和标准差,然后对该特征进行标准化。2. 可以指定标准化的轴(axis),默认为最后一个轴(即特征轴)。原创 2023-05-06 16:27:09 · 744 阅读 · 0 评论 -
机器学习随记(1)
目标函数(Object Function)定义为:最终需要优化的函数。等于经验风险+结构风险(也就是代价函数 + 正则化项)。代价函数最小化,降低经验风险,正则化项最小化降低。代价函数(Cost Function )是定义在整个训练集上的,是所有样本误差的平均,也就是损失函数的平均。损失函数(Loss Function )是定义在单个样本上的,算的是一个样本的误差。Loss 是单个示例与其目标值的差异的度量,而 Cost 是训练集上损失的度量。正则化线性回归的成本函数。正则化逻辑回归的成本函数。原创 2023-05-05 17:59:00 · 177 阅读 · 0 评论 -
机器学习简记:偏差、方差及优化模型的方法
偏差:训练集预测的错误率,它是训练集预测结果与实际真值之间差距(距离的期望)。方差:交叉验证集的错误率,它是验证集预测结果与训练集之间差距。方差高:代表训练集过拟合。偏差高:代表训练集欠拟合。原创 2023-04-10 21:12:53 · 544 阅读 · 0 评论