
机器学习
文章平均质量分 91
深度不学习!!
v a932016561
展开
-
机器学习实战(入门级) ------ Kaggle 泰坦尼克号幸存者预测 (随机森林,KNN,SVM)
文章目录前言数据集介绍gender_submision.csv:train.csv:test.csv数据清洗数据预处理缺失值填充数据优化前言关于kaggle:就是一个面向机器学习和数据科学打比赛的地方,根据精度有排行榜,会有企业在里面,你要是解决了企业发布的项目,还会有奖金啥的。我们没那么强,就利用他的数据集和项目来做练习吧。先下载一下泰坦尼克号的数据集。kaggle官网下载地址:https://www.kaggle.com/competitions/titanic/data浏览kaggle原创 2022-04-08 17:01:38 · 10595 阅读 · 3 评论 -
机器学习算法----KNN K邻近 (K值的选择) (学习笔记)
文章目录KNN简介算法原理K值选择距离的计算学习参考今天整理一下KNN的笔记,这个算法比较简单,没什么太多的东西。我刚才看到一个视频教程,里面的老师说KNN是一个聚类算法,我疑惑了一秒,然后出去确认了一下他讲错了,KNN是分类算法,分类和聚类在数据上都是有本质区别的,可以在我整理聚类的那篇学习笔记里看到聚类和分类的区别。各种聚类笔记支持向量机SVM笔记决策树与随机森林笔记KNN简介KNN的全称是K Nearest Neighbors。意思是K个最近的邻居。KNN是有监督学习,K-Mean原创 2022-04-07 20:22:52 · 12649 阅读 · 0 评论 -
机器学习算法----决策树与随机森林 (信息熵、信息增益率、剪枝、OOB) (学习笔记)
文章目录决策树熵、信息熵、信息增益:剪枝随机森林OOB (袋外错误率)学习参考前两天整理的笔记:支持向量机 SVM各种聚类算法今天整理一下决策树和随机森林。决策树决策树顾名思义,一张图解释一下:假设要见相亲对象,看这张图,这就是决策树的大概过程,每一个非叶子节点都是条件,叶子节点是结果,分支就是条件。熵、信息熵、信息增益:这俩东西的原理和计算方法后面再说了,一句话理解:可以理解为混乱程度(分类效果不好)。比如分类结果A里面啥都有,则他的混乱程度较大,所以熵值就大。构造决策树的基原创 2022-04-07 19:45:49 · 4294 阅读 · 2 评论 -
机器学习算法----支持向量机SVM (软间隔、核函数、拉格朗日乘子法) (学习笔记)
文章目录距离计算优化目标拉格朗日乘子法软间隔(soft-margin)核函数学习参考昨天整理了一下聚类算法的笔记----------各种聚类算法总结今天整理一下同为分类的另一个算法(有监督):支持向量机(Support Vector Machine)距离计算分类都绕不开一个问题就是样本间距离的计算,看下面这张图。显然右边分隔线的间距更大,更加有容错率。如何计算距离?下图是一张三维图。假设样本点为XXX,灰色的纸面是分割面,类似于上面的二维图中的分割线。X′X'X′ X′′X''X′′ 都原创 2022-04-06 19:41:22 · 1868 阅读 · 0 评论 -
机器学习算法----聚类 (K-Means、LVQ、GMM、DBSCAN、AGNES) (学习笔记)
文章目录聚类简介聚类和分类的区别基础概念外部指标内部指标距离度量和非距离度量距离度量方法有序属性和无序属性原型聚类k均值算法(K-means)学习向量化(LVQ)高斯混合聚类(GMM)密度聚类(DBSCAN)层次聚类(AGNES)学习参考聚类简介之前学习的决策树、随机森林或者逻辑回归都属于有监督学习,就是有老师在指导他,给了他特征和真实标签lable。今天的这个聚类算法就是无监督学习,不需要真实标签lable。聚类结果:将数据划分成有意义的‘簇’ (类似于集合),簇内样本尽快可能的相同,簇间尽可能的原创 2022-04-05 13:18:56 · 4126 阅读 · 0 评论