
机器学习
文章平均质量分 96
烂尾主教
这个作者很懒,什么都没留下…
展开
-
【机器学习】决策树(基础篇)
本节将以例子为主,详细介绍生成决策树的原理部分,代码将不做重点介绍。原创 2023-05-11 22:49:21 · 1766 阅读 · 7 评论 -
【机器学习】信息量、香农熵、信息增益(增加例子,方便理解)
这个公式的物理意义是,当事件 i 发生的概率越小时,其所包含的信息量就越大。例如,在一组有 8 个等概率的符号中选出一个符号,它所包含的信息量为。在信息论中,香农熵通常被定义为一个系统中所有可能事件的信息量的期望值。但是,突然某一天有人告诉你,今天太阳是从西边出来的,那么这条信息的信息量就。不完全正确,虽然在一些情况下,信息量可以通过一个事件发生的概率来表示,但是。是不是可以简单的将系统中的所有事件的信息量加和大小作为整个系统的香农熵值?事件i发生的概率)就可以量化的表示信息的信息量了。原创 2023-05-07 16:13:00 · 2915 阅读 · 2 评论 -
【机器学习】SoftMax多分类
给定以歌n×kn×kn×k矩阵Ww1w2wkWw1w2...wk,其中,wj∈Rnw_j\in R^nwj∈Rn为n×1n×1n×1列向量(1≤j≤k1≤j≤k),Softmax模型hwRn→RkhwRn→RkhWxew1x∑t1kewtxew2x∑t1kewtxewkx∑t1kewtx。原创 2023-04-08 14:01:15 · 1623 阅读 · 0 评论 -
【机器学习】分类模型评价指标(混淆矩阵、ROC)(已修改,放心看)
ROC曲线(Receiver Operating Characteristic Curve)是一种常用的二分类模型性能评估工具,其横轴为假正率(False Positive Rate, FPR),纵轴为真正率(True Positive Rate, TPR),ROC曲线的绘制是通过将不同阈值下的真正率和假正率作为坐标点绘制而成。解释:该混淆矩阵表示模型在测试数据集上共有100个样本,其中实际为正例的有50个,实际为反例的有50个。:F1值是一种常用的分类模型评价指标,它综合了模型的准确率和召回率两个指标。原创 2023-04-05 17:53:11 · 1024 阅读 · 3 评论 -
【机器学习】Logistic回归(重新整理)
信息量(Information)指的是一个事件所包含的信息的多少,通常用以2为底的对数表示。比如说,如果一个事件发生的概率是1/8,那么这个事件的信息量就是log2(1/8)=-3,因为需要三个比特才能表示它。看老师的课的时候,直接丢给我一个对数损失,然后又直接讲交叉熵,对数损失为啥可以作为损失函数,也没告诉我们。继续看下去,你会收获更多。其就是,如果真实标签为1,那么就是当预测模型(标签为1)函数值大于某个值的时候,便认为预测标签为1,反正为0。时,Q模型越接近真实的理论P模型,又知道,信息量的定义是。原创 2023-04-01 21:09:01 · 1309 阅读 · 0 评论 -
【机器学习】搜索算法(梯度,随机梯度,次梯度,小批量,坐标下降)
凸函数:由上图来看,凸函数的几何意义在于,定义域中任意两点连线组成的线段都在这两点的函数曲线(面)上方。博文中,得知线性回归的任务就是确定唯一的。是一维数据,固然可以做出一张二维视图原创 2023-03-17 16:45:56 · 1587 阅读 · 0 评论 -
【机器学习】线性回归
线性回归要做的是就是找到一个数学公式能相对较完美地把所有组合(加减乘除)起来,得到的结果和目标接近。原创 2023-03-13 20:44:06 · 668 阅读 · 0 评论 -
【机器学习】有监督算法基础
机器学习、有监督学习概念(特征组、标签、模型、损失函数、有监督学习任务、测试数据和训练数据、损失函数、经验损失)、经验损失最小化算法架构(ERM)、正则化算法:原创 2023-03-11 12:11:50 · 836 阅读 · 0 评论