
机器学习
文章平均质量分 65
牛右刀薛面
Know-what and Know-how
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
(17)机器学习_集成学习
文章目录1、Bagging算法1.1 从原始样本集中抽取训练集1.2 使用k个训练集训练出k个模型1.3 对于分类和回归问题2、 Adaboost算法1、Bagging算法套袋法1.1 从原始样本集中抽取训练集每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本(在训练集中,有些样本可能被多次抽到,有些样本可能一次都没被抽到)。共进行k轮抽取,得到的k个训练集。这k个训练集之间是相互独立的。Bootstraping: 指的是利用有限的样本经过多次重复抽样,重新建立起足以代表母体样原创 2021-09-22 19:30:39 · 123 阅读 · 0 评论 -
(16)机器学习_ROC曲线绘制
import numpy as npimport matplotlib.pyplot as pltfrom sklearn import svm, datasetsfrom sklearn.metrics import roc_curve, auc ###计算roc和aucfrom sklearn.model_selection import train_test_split# Import some data to play withiris = datasets.load_iris(原创 2021-09-09 09:57:18 · 501 阅读 · 0 评论 -
(7)机器学习之make_bolbs
1、make_bolbs定义用我自己的话来说就是,生成n个样本,且每个样本有n_featrues个特征值,并且这些样本都服从高斯分布。sklearn.datasets.make_blobs(n_samples=100,n_features=2,∗,centers=None,cluster_std=1.0,center_box=(−10.0,10.0),shuffle=True,random_state=None,return_centers=False)sklearn.datasets.make\_b原创 2021-09-02 20:09:41 · 486 阅读 · 1 评论 -
(15)机器学习_网格搜索_参数及学习曲线
1、网格搜索搜索最佳参数from sklearn.model_selection import GridSearchCV2、学习曲线学习曲线就是通过画出不同训练集大小时训练集和交叉验证的准确率,可以看到模型在新数据上的表现,进而来判断模型是否方差偏高或偏差过高,以及增大训练集是否可以减小过拟合有一篇文章讲的很详细这里3、代码实现注:数据集使用的是2021年华数杯c提附件一删去含有NULL的列from sklearn.ensemble import RandomForestClassifie原创 2021-09-06 10:50:31 · 719 阅读 · 0 评论 -
(14)机器学习_f1,auc值
1、f1,auc介绍2、如何计算这里采用的是华数杯附件一中的数据import numpy as npfrom sklearn.svm import SVCfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import MinMaxScalerfrom sklearn.metrics import classification_reportimport pandas as pdfrom原创 2021-09-05 12:39:45 · 563 阅读 · 0 评论 -
(13)机器学习_LogisticRegression
classsklearn.linear_model.LogisticRegression(penalty=′l2′,∗,dual=False,tol=0.0001,C=1.0,fit_intercept=True,intercept_scaling=1,class_weight=None,random_state=None,solver=′lbfgs′,max_iter=100,multi_class=′auto′,verbose=0,warm_start=False,n_jobs=None,l1_rati原创 2021-09-05 12:29:53 · 94 阅读 · 0 评论 -
(12)机器学习_特征选择
1、为什么要进行特征选择目前我的理解是,能够简化模型,起到降维的作用。2、如何进行特征选择其实很简单,将数据输入到模型里面,然后通过通过sklearn提供的feature_selection的SelectFromModel选择有效特征from sklearn.svm import LinearSVCfrom sklearn.datasets import load_irisfrom sklearn.feature_selection import SelectFromModelfrom skl原创 2021-09-04 16:14:58 · 237 阅读 · 0 评论 -
[12]机器学习_smote算法
1、smote原理介绍2、smote算法实现import randomfrom sklearn.neighbors import NearestNeighborsimport numpy as npimport matplotlib.pyplot as pltclass Smote(object): def __init__(self, N=50, k=5, r=2): # 初始化self.N, self.k, self.r, self.newindex原创 2021-09-04 10:03:03 · 1863 阅读 · 0 评论 -
(11)机器学习_Kmeans聚类算法
1、K_means介绍K_means和K邻近算法类似,是一种基于距离的算法,是一种无监督学习,训练好的模型能够根据预测数据的特征与与训练集之间的‘距离’,对预测集进行分类。目前这是我浅显的了解,可能有更多的用处等待我去挖掘。classsklearn.cluster.KMeans(nclusters=8,∗,init=′k−means++′,ninit=10,maxiter=300,tol=0.0001,precomputedistances=′deprecated′,verbose=0,randomst原创 2021-09-02 20:31:12 · 205 阅读 · 0 评论 -
(10)机器学习_K邻近算法
文章目录1、什么K邻近算法2、使用鸢尾数据集样例1、什么K邻近算法K邻近算法的原理是寻找与待预测实例的各个特征最为相近的K个数据集中的样例,并以找到的K个样例的结果对待测样例作出估计,是基于距离的算法2、使用鸢尾数据集样例代码:from sklearn import neighbors,datasetsfrom sklearn.model_selection import train_test_splitdata = datasets.load_iris()X = data.datay原创 2021-09-02 09:31:38 · 104 阅读 · 0 评论 -
(9)机器学习_多分类器OneVsRestClassifier
1、什么是OneVsRestClassifierOvR为每一个类别配备一个分类器,是目前最常用的一种多类分类策略classsklearn.multiclass.OneVsRestClassifier(estimator,∗,n_jobs=None)class sklearn.multiclass.OneVsRestClassifier(estimator, *, n\_jobs=None)classsklearn.multiclass.OneVsRestClassifier(estimator,∗,原创 2021-08-22 16:30:08 · 10016 阅读 · 6 评论 -
(8)机器学习_混淆矩阵(分类模型评估)
1、什么是混淆矩阵对于分类模型中,模型据测的结果有真和假两种情况,实际情况有分为正和负两种情况,因此呢,最终的结果会有呈现四种情况,也就是一个 n_classes×n_classern\_classes\times n\_classern_classes×n_classer的矩阵(n_classes表示分类类别),真正(True Positive),假正(False Positive),真负(True Negative),假负(False Negative)四个指标。(第二个字母表示预测的结果,第一个字原创 2021-08-21 13:21:23 · 2214 阅读 · 1 评论 -
(6)机器学习_支持向量机
1、什么是支持向量机classsklearn.svm.SVC(∗,C=1.0,kernel=′rbf′,degree=3,gamma=′scale′,coef0=0.0,shrinking=True,probability=False,tol=0.001,cache_size=200,class_weight=None,verbose=False,max_iter=−1,decision_function_shape=′ovr′,break_ties=False,random_state=None)cl原创 2021-08-20 16:15:57 · 403 阅读 · 0 评论 -
(5)机器学习_K折交叉验证(iris数据集实例)
1、什么是K折交叉验证定义:将训练集分成K份,每次用其中一份做测试集,其余的k-1份作为训练集,循环k次,取每次训练结果的平均值作为评分。classsklearn.model_selection.KFold(n_splits=5,∗,shuffle=False,random_state=None)class sklearn.model\_selection.KFold(n\_splits=5, *, shuffle=False, random\_state=None)classsklearn.mod原创 2021-08-19 23:54:40 · 4659 阅读 · 0 评论 -
(4)回归决策树_预测波士顿房价
文章目录前言摘要1、构建模型并检验模型的准确率2、构建决策树3、将每个特征的重要性可视化4、附件:4.1 完整代码:4.2 DecisionTreeRegressor类构造函数5、参考文献:前言我们使用的数据集来自sklearn自带的boston数据集,其中data部分为特征值,target部分为目标值,有了以上两个模块,那么哦我们就可以很好的建立回归树模型,进行预测。摘要本文主要介绍如何构造检验回归树模型,决策树的可视化与特征值的重要性可视化。1、构建模型并检验模型的准确率from sklea原创 2021-08-19 01:02:10 · 3987 阅读 · 0 评论 -
(3)机器学习_逻辑模型_决策树
文章目录1、什么是决策树2、决策树的学习过程:3、决策树是如何生成的3.1 ID3算法(基于信息增益)3.2 C4.5算法(基于信息增益率)3.3 CART算法(基于基尼系数)4、决策树实现的简单例子5、参考文献1、什么是决策树决策树(Decision Tree)是机器学习的一种算法,决策树的决策过程和一颗倒过来的树相似,所以称作决策树。2、决策树的学习过程:特征选择:选择哪些属性作为树的节点。生成决策树:生成树形结构。决策树剪枝:优化决策树,减少计算量,防止过拟合。预剪枝:在生成决策树的原创 2021-08-18 16:51:18 · 236 阅读 · 0 评论 -
(2)机器学习_train_test_split
在python中有个函数dir()dir()能做什么使用dir函数,我们能了解一个object中所有的模块,比如说from sklearn.datasets import load_irisiris = load_iris()print(dir(iris))X = iris.dataprint(dir(X))import mathprint(dir(math))运行结果如下喽...原创 2021-08-18 00:28:29 · 462 阅读 · 0 评论 -
(1)信息熵,条件熵,信息增益,信息增益率
介绍信息熵和信息增益之前,先介绍信息增量的概念文章目录1、信息量2、熵3、条件熵4、信息增益5、参考文献:1、信息量定义:信息多少的量度,与事件发生的概率相关。信息量用III表示, 记事件A发生的概率为p,则事件A的信息量计算公式:IA=−log2(p)I_A = -\log_2(p)IA=−log2(p)例子 :比如说,我们掷骰子,点数为一事件的概率为16\frac{1}{6}61, 那么该事件的信息量为:IB=−log2(16)=log26≈2.6I_B = -\lo原创 2021-08-17 23:48:42 · 3221 阅读 · 0 评论