
机器学习
文章平均质量分 90
机器学习
JeffreyLiannnn
这个作者很懒,什么都没留下…
展开
-
svm支持向量机
svm支持向量机最大间隔与分类线性模型对偶问题:等式约束SVM是有监督学习,我们先给一部分数据打上类别标签,让SVM模型使用这些打了类别标签的数据进行训练,训练后,给训练好的SVM模型新的无类别标签的数据,SVM模型就可以自动对这些新的数据分类。最大间隔与分类线性模型我们已经知道了函数间隔和几何间隔的表示,现在回到正题,我们需要最大化支持向量到分割超平面的距离,当然在最开始我们不知道哪些向量是支持向量。我们的目的是最大化支持向量到分割超平面的几何间隔r,而不是最大化函数间隔g(x),为什么呢?因为原创 2021-12-31 21:30:05 · 904 阅读 · 0 评论 -
logistic回归
logistic回归logistic回归概述Logistic回归的一般过程线性模型与回归Logistic回归:分类问题基于最优化方法的最佳回归系数确定梯度上升法梯度下降法使用梯度上升找到最佳参数逻辑回归实例:从疝气病预测病马的死亡率总结logistic回归概述假设现在有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归。利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。这里的“回归”一词源于最佳拟合,表示要找到最佳拟原创 2021-12-26 15:02:32 · 1521 阅读 · 0 评论 -
朴素贝叶斯
朴素贝叶斯朴素贝叶斯概述朴素贝叶斯的优缺点优点缺点机器学习的两个视角生成式判别式朴素贝叶斯分类器算法流程算法的一般训练流程算法的一般推理流程Toy Example1.统计个数2.估计先验概率和条件概率3.样例判别拉普拉斯修正防溢出策略垃圾邮件分类总结朴素贝叶斯概述朴素贝叶斯算法是有监督的学习算法,解决的是分类问题。其分类原理就是利用贝叶斯公式根据某特征的先验概率计算出其后验概率,然后选择具有最大后验概率的类作为该特征所属的类。之所以称之为”朴素”,是因为贝叶斯分类只做最原始、最简单的假设:所有的特征之原创 2021-12-26 10:44:25 · 1043 阅读 · 0 评论 -
机器学习——决策树
决策树决策树的构造决策树的一般流程信息增益划分数据集选择最好的数据集划分方式信息增益率基尼系数信息熵和基尼系数的比较在Python中使用Matplotlib注解绘制树形图Matplotlib注解构造注解树决策树预测隐形眼镜类型总结决策树的构造优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据缺点:可能会产生过度匹配的问题适用数据类型:数值型和标称型用决策树分类:从根节点开始,对实例的某一特征进行测试,根据测试结果将实例分配到其子节点,此时每个子节点对应着该特征的原创 2021-10-28 01:30:00 · 632 阅读 · 0 评论 -
使用k-近邻算法构建手写识别系统
使用k-近邻算法构建手写识别系统示例分析代码实现kNN算法将32x32的二进制图像转换为1x1024向量手写数字分类测试训练数据展示示例分析使用k-近邻分类器构造只能识别数字0-9的手写识别系统。需要识别的数字已处理成宽高都是32像素的黑白图像,使用文本格式存储。收集数据:提供文本文件。准备数据:编写函数 img2vector(), 将图像格式化处理为向量格式。分析数据:在 Python 命令提示符中检查数据,确保它符合要求。训练算法:此步骤不适用于 KNN。测试算法:编写函数使用提供的部原创 2021-10-10 18:04:46 · 384 阅读 · 0 评论 -
使用k-近邻算法改进约会网站的配对效果
使用k-近邻算法改进约会网站的配对效果示例分析在约会网站上使用k-近邻算法代码分析kNN算法打开并解析文件,对数据进行分类可视化数据归一化处理取百分之五十的数据作为测试数据,检测分类器的正确性结果分析示例分析我的朋友海伦一直使用在线约会网站寻找适合自己的约会对象。尽管约会网站会推荐不同的人选,但她没有从中找到喜欢的人。经过一番总结,她发现曾交往过三种类型的人:不喜欢的人魅力一般的人极其魅力的人在约会网站上使用k-近邻算法收集数据:提供文本文件。准备数据:使用Python解析文本文件。原创 2021-10-10 17:17:37 · 306 阅读 · 0 评论 -
机器学习——k-近邻算法
k-近邻算法概述简单来说,k-近邻算法采用测量不同特征值之间的距离方法进行分类优点:精度高、对异常值不敏感、无数据输入假定缺点:计算复杂度高、空间复杂度高适用数据范围:数值型和标称型k-近邻算法工作原理:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据的分类标签。一般来说只取前k个最相似的数据,通常k是不大于20的整原创 2021-09-27 10:02:03 · 1044 阅读 · 0 评论