
机器学习
文章平均质量分 91
sklearn中常见机器学习算法api的调用
ajinreallytrouble
这个作者很懒,什么都没留下…
展开
-
6.聚类(K-means)+ 降维(Pca)
聚类算法:一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中。在聚类算法中根据样本之间的相似性,将样本划分到不同的类别中,对于不同的相似度计算方法,会得到不同的聚类结果,常用的相似度计算方法有欧式距离法。K-means K : 初始中心点个数(计划聚类数) means:求中心点到其他数据点距离的平均值步骤:1、随机设置K个特征空间内的点作为初始的聚类中心2、对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中心点作为标记类别3、接着对着标记的聚类中心之后,重新原创 2021-01-04 09:20:01 · 4210 阅读 · 0 评论 -
5.集成学习
集成学习集成学习通过建立几个模型来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。Bagging:互相遏制变壮从原始样本集中使用Bootstraping 方法随机抽取n个训练样本,共进行k轮抽取,得到k个训练集(k个训练集之间相互独立,元素可以有重复)。对于n个训练集,我们训练k个模型,(可以是决策树,knn等)对于分类问题:由投票表决产生的分类结果;对于回归问题,由k个模型预测结果的均值作为最后预测的结原创 2020-12-31 14:27:29 · 144 阅读 · 0 评论 -
4.决策树算法
决策树:是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树。apiclass sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None)criterion特征选择标准“gini"或者"entropy”,前者代表基尼系数,后者代表信息增益。一默认"gini",即CART算法min_sa原创 2020-12-31 10:13:25 · 132 阅读 · 0 评论 -
3.逻辑回归
1.逻辑回归的原理逻辑回归的输入就是一个线性回归的结果。sigmoid激活函数判断标准回归的结果输入到sigmoid函数当中输出结果:[0, 1]区间中的一个概率值,默认为0.5为阈值逻辑回归最终的分类是通过属于某个类别的概率值来判断是否属于某个类别,并且这个类别默认标记为1.逻辑回归的损失,称为对数似然损失,公式如下综合完整损失函数2.逻辑回归apisklearn.linear_model.LogisticRegression(solver=‘liblinear’, penal原创 2020-12-30 19:48:29 · 107 阅读 · 0 评论 -
2.线性回归
1.线性回归原理定义:线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。特点:只有一个自变量的情况称为单变量回归,多于一个自变量情况的叫做多元回归。最小二乘损失函数:线性回归常用的两种优化算法(1)正规方程(2)梯度下降梯度下降方法介绍(1)全梯度下降(FG)计算训练集所有样本误差,对其求和再取平均值作为目标函数。权重向量沿其梯度相反的方向移动,从而使当前目标函数减少得最多。因为在执行每原创 2020-12-30 14:32:11 · 409 阅读 · 0 评论 -
1.K近邻算法(knn算法api、交叉网格搜索api)
定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。距离公式:通常采用欧氏距离,也可采用曼哈顿距离、切比雪夫距离、马氏距离等。KNN实现流程:1)计算已知类别数据集中的点与当前点之间的距离2)按距离递增次序排序3)选取与当前点距离最小的k个点4)统计前k个点所在的类别出现的频率5)返回前k个点出现频率最高的类别作为当前点的预测分类K值的选择:K值过小, 容易受到异常点的影响;k值过大, 受到样本均衡的问题1) 选择较小原创 2020-12-30 10:51:21 · 398 阅读 · 0 评论 -
0.scikit-learn数据集、特征处理api介绍
scikit-learn数据集APIsklearn.datasets加载获取流行数据集datasets.load_*()获取小规模数据集,数据包含在datasets里例如:sklearn.datasets.load_iris() 加载并返回鸢尾花数据集datasets.fetch_*(data_home=None)获取大规模数据集,需要从网络上下载,函数的第一个参数是data_home,表示数据集下载的目录,默认是 ~/scikit_learn_data/例如:sklearn.datase原创 2020-12-30 10:30:50 · 156 阅读 · 0 评论