- 博客(7)
- 收藏
- 关注
原创 身份证号的校验码
某公民身份证号本体码为51078107010228001,其校验码计算过程如下,该公民身份证号为510781070102280016。表示从右到左包括校验码字符在内的位置序号;个位置上的加权因子,其计算公式为。取值为10时,用罗马数字X表示。个位置上的号码字符值;的换算关系如下表所示,
2024-10-01 12:29:37
2087
原创 西瓜书第四章\决策树算法
由于增益率准则对可取值数目较少的属性有所偏好,C4.5算法使用了一个启发式:先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。在这里,“信息熵”所代表的随机变量X的“不确定性”可以理解为集合D的“纯度”。:类比“条件概率”,“条件熵”是已知X后Y的不确定性,即Y的信息熵关于概率分布X的期望,两部分来计算信息增益值,选择基尼指数最小的属性及其对应取值作为划分属性和划分点。选择基尼指数最小的属性及其对应取值作为划分属性和划分点。:已知属性a的取值后y的不确定性的减少量,即纯度的提升量,
2024-09-30 21:45:31
636
原创 南瓜书第三章\线性判别分析
算法思想是:将给定样例投影到一条直线上,使得同类样本投影点尽可能相近,即同类样本方差小,异类样本投影点尽可能远离,即异类样本中心尽可能远离。,令Xi、μi、Σi分别表示第i∈{0,1}类示例的集合、均值向量、协方差矩阵,即。若将数据投影到直线w上,则两类样本的中心在直线上的投影分别为。因为我们不关心w的大小,只关心其方向,所以可以令分母为1,即。还可以把LDA推广到多分类任务中,定义“全局散度矩阵”为实数,由于我们不关心w的大小,所以可以令。若异类样本中心尽可能远离,则。,两类样本的协方差分别为。
2024-09-27 22:27:13
324
原创 西瓜书第三章\对数几率回归
线性模型可以进行回归学习,而对于分类则不适用。对此,我们可以采用广义线性回归模型,找一个单调可微函数将真实标记y和线性回归模型的预测值联系起来。,p(x)为理想分布,q(x)为模拟分布,,则概率质量函数为 ,为常量,当交叉熵最小时,相对熵最小。,则y关于z的函数可以表示为,. 代入概率质量函数得到,对于二分类任务来说,
2024-09-24 23:32:11
200
原创 西瓜书第三章\线性回归
若有k个属性值,则转化为k维向量比如“瓜”的种类西瓜、南瓜、黄瓜可转化为(0,0,1)、(0,1,0)、(1,0,0).:“高度”的取值高、中、低可转化为{1.0,0.5,0.0};:找到一条直线使得所有样本到直线的欧氏距离之和最小,也就是寻找。一元线性回归:将损失函数分别对。为满秩矩阵或正定矩阵时,令。
2024-09-21 22:20:31
354
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人