
机器学习
文章平均质量分 72
Bob_tensor
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
一看就懂的XGBoost原理(转)
https://zhuanlan.zhihu.com/p/839013041. XGBoost简介XGBoost的全称是eXtreme Gradient Boosting,它是经过优化的分布式梯度提升库,旨在高效、灵活且可移植。XGBoost是大规模并行boosting tree的工具,它是目前最快最好的开源 boosting tree工具包,比常见的工具包快10倍以上。在数据科学方面...转载 2020-03-30 15:34:53 · 2861 阅读 · 0 评论 -
交叉熵损失函数及其求导过程推导
转载地址:https://blog.youkuaiyun.com/jasonzzj/article/details/52017438?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-taskex/(1+ex)=1/(1+e^-x)转载 2020-03-27 15:25:09 · 778 阅读 · 0 评论 -
win10下anaconda安装pytorch
打开pytorch官网:https://pytorch.org/get-started/locally/需要打开自己的电脑查看电脑cuda版本:在win搜索框里搜索NVIDIA出来NVIDIA控制面板若电脑无显卡,则CUDA 选择None打开Anaconda Prompt,输入官网给的的命令:pip install torch=1.4.0 torchvision=0.5.0 -f ...原创 2020-03-23 15:47:54 · 591 阅读 · 0 评论 -
机器学习分类与回归模型
一.KNN算法1.既可用于分类也可用于回归2.主要思想是找到预测样本中最近的K个邻居(一般通过欧式距离或者曼哈顿距离公式计算),用K个邻居的目标值中占多数的目标代表预测样本的目标分类:K个邻居投票决定,少数服从多数回归:K个邻居目标的平均值3.所以KNN算法最关键的点就是K值的选取决定了模型的效果,一般可通过K-折交叉验证或者网格搜索法选择一个模型评分最优的K值二、线性回归线性回归的...转载 2020-03-20 00:41:02 · 6620 阅读 · 0 评论 -
运用joblib保存训练模型与加载模型
在机器学习中我们训练模型后,需要把模型保存到本地,这里我们采用joblib来保存from sklearn.externals import joblib#保存模型def Save_Model(self, model, filepath):joblib.dump(model, filename=filepath)def Decision_Tree_classifier(self,x_tra...转载 2020-03-17 17:45:45 · 673 阅读 · 0 评论 -
分类问题模型评价
链接:https://blog.youkuaiyun.com/liweibin1994/article/details/79462554二分类1.混淆矩阵假设,我们有一个任务:给定一些患者的样本,构建一个模型来预测肿瘤是不是恶性的。在这里,肿瘤要么良性,要么恶性,所以这是一个典型的二分类问题。假设我们用y=1表示肿瘤是良性,y=0表示肿瘤是恶性。则我们可以制作如下图的表格:如上图,TP表示预测为良...转载 2019-11-18 10:55:33 · 639 阅读 · 0 评论 -
机器学习聚类评价指标
链接:https://blog.youkuaiyun.com/u010159842/article/details/78624135python中的分群质量主要参考来自官方文档:Clustering部分内容来源于:机器学习评价指标大汇总个人比较偏好的三个指标有:Calinski-Harabaz Index(未知真实index的模型评估)、Homogeneity, completeness and V-...转载 2019-11-15 16:03:30 · 1327 阅读 · 0 评论 -
回归预测模型的评价指标
本文链接:https://blog.youkuaiyun.com/chao2016/article/details/84960257均方误差(Mean Squared Error,MSE)观测值与真值偏差的平方和与观测次数的比值:这就是线性回归中最常用的损失函数,线性回归过程中尽量让该损失函数最小。那么模型之间的对比也可以用它来比较。MSE可以评价数据的变化程度,MSE的值越小,说明预测模型描...转载 2019-11-15 15:32:59 · 5917 阅读 · 0 评论 -
XGBOOST
链接:https://www.cnblogs.com/zongfa/p/9324684.html机器学习–boosting家族之XGBoost算法一、概念XGBoost全名叫(eXtreme Gradient Boosting)极端梯度提升,经常被用在一些比赛中,其效果显著。它是大规模并行boosted tree的工具,它是目前最快最好的开源boosted tree工具包。XGBoost 所...转载 2019-11-14 17:10:26 · 205 阅读 · 0 评论 -
CART回归树
本文链接:https://blog.youkuaiyun.com/Albert201605/article/details/81865261核心:划分点选择 + 输出值确定。一、概述决策树是一种基本的分类与回归方法,本文叙述的是回归部分。回归决策树主要指CART(classification and regression tree)算法,内部结点特征的取值为“是”和“否”, 为二叉树结构。所谓回归,就...转载 2019-10-23 10:38:28 · 1824 阅读 · 0 评论 -
常见分类算法优缺点比较
原文链接:https://bbs.pinggu.org/thread-2604496-1-1.html一、决策树(Decision Trees)的优缺点决策树的优点:1、决策树易于理解和解释.人们在通过解释后都有能力去理解决策树所表达的意义。2、对于决策树,数据的准备往往是简单或者是不必要的.其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性。3、 能够同时处理数据型和常规型...转载 2019-10-21 07:48:53 · 760 阅读 · 0 评论 -
train_test_split参数介绍
在机器学习中,我们通常将原始数据按照比例分割为“测试集”和“训练集”,通常使用sklearn.cross_validation里的train_test_split模块用来分割数据。cross_validation已经弃用,现在改为从 sklearn.model_selection 中调用train_test_split 函数。简单用法如下:X_train,X_test, y_train, y...转载 2019-09-16 01:13:18 · 862 阅读 · 0 评论 -
卡方检验
卡方检验,统计学的方法,现在机器学习看变量的时候也会用到。很多不知道的人,一听到这个名词,会马上联想到,啊?还要拿张卡来检验吗?其实卡方检验是英文Chi-Square Test 的谐音。在大数据运营场景中,通常用在某个变量(或特征)值是不是和应变量有显著关系。我常听到运营和分析师这样的对话,分析师:“这个变量我做了卡方检验了,不显著,所以我没有放进模型。”这时候,你要是仔细观察运营经理...转载 2019-09-10 12:28:23 · 553 阅读 · 0 评论 -
分类树与回归树。分类与回归
1.分类树以C4.5分类树为例,C4.5分类树在每次分枝时,是穷举每一个feature的每一个阈值,找到使得按照feature<=阈值,和feature>阈值分成的两个分枝的熵最大的阈值(熵最大的概念可理解成尽可能每个分枝的男女比例都远离1:1),按照该标准分枝得到两个新节点,用同样方法继续分枝直到所有人都被分入性别唯一的叶子节点,或达到预设的终止条件,若最终叶子节点中的性别不唯一,...转载 2019-08-28 12:08:41 · 435 阅读 · 0 评论 -
决策树参数
DecisionTreeRegressor树模型参数:1.criterion gini(基尼系数) or entropy(信息熵)2.splitter best or random 前者是在所有特征中找最好的切分点 后者是在部分特征中(数据量大的时候)3.max_features None(所有),log2,sqrt,N 特征小于50的时候一般使用所有的4.max_depth 数据少或者...转载 2019-08-30 16:25:09 · 708 阅读 · 0 评论 -
gridSearchCv参数调优
链接:https://www.cnblogs.com/lrtq/p/9925129.html链接:https://blog.youkuaiyun.com/cindy407/article/details/93304059转载 2019-08-30 18:47:43 · 2371 阅读 · 0 评论 -
ROC,AUC曲线
一、混淆矩阵,ROC曲线 都是针对二分类问题from sklearn.metrics import confusion_matrixcm = confusion_matrix(y_test,y_) # y_test:测试目标值,y_测试预测值plt.matshow(cm, cmap=plt.cm.Greens) #可视化二.Roc :1.predict(x_test) 与 predic...原创 2019-09-02 14:40:35 · 253 阅读 · 0 评论 -
多分类
多分类指标的情况Softmax二分类和多分类其实没有多少区别。用的公式仍然是y=wx + b。 但有一个非常大的区别是他们用的激活函数是不同的。 逻辑回归用的是sigmoid,这个激活函数的除了给函数增加非线性之外还会把最后的预测值转换成在【0,1】中的数据值。也就是预测值是0<y<1。 我们可以把最后的这个预测值当做是一个预测为正例的概率。在进行模型应用的时候我们会设置一个阈值,...转载 2019-09-02 15:17:13 · 2130 阅读 · 0 评论 -
多分类问题评价指标
机器学习或者是日常生活中,遇见的往往是二分类问题比较多,二分类模型的模型评价准则很多,Auc_score,F1_score,accuracy等等都是比较常用的。而针对多分类问题来说,有些二分类的评价准则就相对而言不怎么适用了。虽然可以将多分类问题转化为多个2vs2问题进行讨论,步骤繁杂的同时效果也得不到保障。目前在进行多模态的一个分类研究,在模型评价时也废了不少脑筋,所以在这里将看到的比较常用的多...转载 2019-09-02 15:26:39 · 14300 阅读 · 1 评论 -
多分类中宏平均与微平均的区别
宏平均:微平均:宏平均和微平均的对比如果每个class的样本数量差不多,那么宏平均和微平均没有太大差异如果每个class的样本数量差异很大,而且你想:更注重样本量多的class:使用宏平均更注重样本量少的class:使用微平均如果微平均大大低于宏平均,检查样本量多的class如果宏平均大大低于微平均,检查样本量少的class...转载 2019-09-02 16:39:18 · 1512 阅读 · 1 评论 -
k-折交叉验证
人们发现用同一数据集,既进行训练,又进行模型误差估计,对误差估计的很不准确,这就是所说的模型误差估计的乐观性。为了克服这个问题,提出了交叉验证。基本思想是将数据分为两部分,一部分数据用来模型的训练,称为训练集;另外一部分用于测试模型的误差,称为验证集。由于两部分数据不同,估计得到的泛化误差更接近真实的模型表现。数据量足够的情况下,可以很好的估计真实的泛化误差。但是实际中,往往只有有限的数据可用,需...原创 2019-09-02 18:37:47 · 895 阅读 · 0 评论 -
关联规则
关联规则挖掘基本概念(续)定义一:设I={i1,i2,…,im}I={i1,i2,…,im},是m个不同的项目的集合,每个ikik称为一个项目。项目的集合I称为项集。其元素的个数称为项集的长度,长度为k的项集称为k-项集。引例中每个商品就是一个项目,项集为I={bread,beer,cake,cream,milk,tea}I={bread,beer,cake,cream,milk,tea},I...转载 2019-09-10 11:57:03 · 860 阅读 · 0 评论 -
机器学习特征连续、离散的区别
现在网上关于数据挖掘、机器学习中数据预处理阶段关于属性(特征)的各种连续,离散的变换,由于用词不清,真让人晕头转向。那么数据挖掘、机器学习中用于描述属性(特征)的”连续“,”离散“,”连续化“,”离散化“的这几个词到底是什么含义呢?首先,韩家炜老师在他的书的第二章就对属性的几种类型进行了介绍:1.标称属性:即与名称有关,标称属性的值是一些符号或事物的名称。每个取值代表某种类别、或状态。举个...转载 2019-08-28 11:59:11 · 9942 阅读 · 0 评论