
机器学习
fengzhimohan
这个作者很懒,什么都没留下…
展开
-
《机器学习实战》学习笔记——k-近邻算法(kNN)知识点和Python实现
最近开始学习《利用Python数据分析》和《机器学习实战》,本篇主要对《机器学习实战》中的k-邻近算法的整理和Python程序实现。k-近邻算法kNN(可用于分类也可用于回归)1.理论知识点 含义:采用测量不同特征值之间的距离方法进行分类。 优点:精度高、对异常值不敏感、无数据输入假定 缺点:计算复杂度高、空间复杂度高。 适用数据范围:数值型和标称型。 工作原理:存在一个样本数据...原创 2018-08-13 21:20:45 · 462 阅读 · 0 评论 -
机器学习中的特征工程的处理过程
本文是在别人的文章基础上进行修改,添加。 (一) 特征工程概述1.特征工程的含义 特征工程具体含义:通过一系列的工程活动,将这些信息使用更高效的编码方式(特征)表示。使用特征表示的信息,信息损失较少,原始数据中包含的规律依然保留。编码方式还需要尽量减少原始数据中的不确定因素(白噪声、异常数据、数据缺失…等等)的影响。 2.特征工程的目的 特征工程的目的:如何将原始的数据处理成合格的数据...原创 2018-09-21 20:21:51 · 738 阅读 · 0 评论 -
支持向量机SVM的原理和常用名称解释,以及利用sklearn-SVC实现简单的支持向量机
支持向量机(SVM)1. 简介支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类(binary classification)的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplan...原创 2019-06-12 19:46:39 · 1927 阅读 · 0 评论 -
转载——5 分钟带你弄懂非监督学习k-means 聚类(通俗易懂)
本文转载,原文为https://blog.youkuaiyun.com/huangfei711/article/details/78480078 聚类与分类的区别分类:类别是已知的,通过对已知分类的数据进行训练和学习,找到这些不同类的特征,再对未分类的数据进行分类。属于监督学...转载 2019-06-18 09:59:19 · 1452 阅读 · 0 评论 -
交叉验证(cross validation)原理和方法说明以及scikit-learn代码实现。
交叉验证(cross validation)1.定义:用来验证分类器的性能一种统计分析方法,基本思想是把在某种意义下将原始数据(data set)进行分组,一部分做为训练集(training set),另一部分做为验证集(validation set),首先用训练集对分类器进行训练,在利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标。2.作用:针对在训练集上训练...原创 2019-06-26 11:04:24 · 8599 阅读 · 0 评论 -
模型评价指标说明和scikit-learn代码实现
目前常用的评价指标有:准确率(Precision)、召回率(Recall)、F值(F-Measure)、ROC曲线、PR曲线,AUC曲线。1.混淆矩阵True Positive(真正,TP):将正类预测为正类数True Negative(真负,TN):将负类预测为负类数False Positive(假正,FP):将负类预测为正类数→误报 (Type I error)False Neg...原创 2019-06-27 11:49:50 · 1670 阅读 · 0 评论