
sklearn
文章平均质量分 76
changingeveryday
这个作者很懒,什么都没留下…
展开
-
SVM识别手写数字
支持向量机在2012年以前,SVM被认为机器学习中近十几年最成功表现最好的。SVM算法起源于感知机模型,感知机模型只可解决线性可分的数据集分类问题(线性可分:正负样本点集的凸包彼此不交)支持向量机可以应用于统计分类和回归分析。SVM分类:(1)线性可分SVM(2)线性不可分SVM(3)非线性SVM。例子:识别手写数字import matplotlib.pyplot as plt# Import d...原创 2018-03-18 19:56:51 · 2151 阅读 · 0 评论 -
KNN浅析
k-近邻算法1.1算法原理及步骤为了判断未知实例的标签,以所有已知标签的实例为参照,选择参数k(多为奇数),计算未知实例与所有已知实例的距离,选择最近k个已知空间,少数服从多数的投票法则,让未知实例归类为k个最邻近样本中最多数的标签。1.2优缺点优点:精度高、对异常值不敏感,无输入数据假定、通过对K的选择可具备噪音数据的健壮性;缺点:计算复杂度高、空间复杂度高(需要大量空间存储所有已知实例)、样本...原创 2018-03-19 17:44:40 · 233 阅读 · 0 评论 -
网格搜索GridSearchCV参数详细解析
一网格搜索(寻求参数最优的一种方法)首先为想要调参的参数设定一组候选值,然后网格搜索会穷举各种参数组合,根据设定的评分机制找到最好的那一组设置。使用:from sklearn.model_selection import GridSearchCVclass sklearn.model_selection.GridSearchCV(estimator, param_grid, scoring=Non...原创 2018-03-31 19:45:20 · 35378 阅读 · 2 评论 -
PCA降维原理以及举例
将图像读取之后,如若将每一个像素点看做特征,数据过于庞大和冗余,同时为了速度和可视化效果应先对读取进来的数据进行降维处理。1.1消减维度的理由:(1)大多数的模型在维度较小的情况下比较安全,多余的特征会影响或误导学习器;(2)更多的特征需要调整更多的参数,容易产生过拟合;(3)较少的维度数据集训练速度快;(4)实现数据可视化时,大多限制在两、三个维度上,更加体现降维的必要。无法使用选择方法删减特征...原创 2018-03-28 18:40:50 · 4693 阅读 · 0 评论