
机器学习
东方老司机
海纳百川,有容乃大;壁立千仞,无欲则刚。
展开
-
如何识别训练集中没有的类别样本
识别训练集中没有的类别样本 使用训练集训练出模型,该模型是否能够在开放的环境中使用是很重要的,不然只能在特定场景/场合下使用,其伸缩扩展性太差。然而,在开放环境中,数据样本可能是训练集中不存在的类别,此时模型能否区分出此样本为其他类别的样本尤为重要,否则会把该样本识别为训练集中的类别之一。比如使用猫和狗的图片为训练数据训练出来一个模型,把衣服的图片给他识别,该模型如果把衣服的图片识别成狗或者猫,则是很尴尬且有些滑稽的,所以能识别出训练集中没有的类别样本对一个模型能否应用在开放的环境中是很有意义的。 思路:原创 2020-05-09 16:10:31 · 3804 阅读 · 2 评论 -
不平衡数据处理
在做实验中遇到了非平衡数据集,导致实验结果很忧伤,数据类别不均对模型训练有挺大影响,尤其是在类别极度不均的时候。目前还没有很好的解决方法,还处于查找资料,比着葫芦找葫芦的过程中,记录一下,或许能有所启发。 对于不平衡数据,其实类别精度(precise)和召回率(recall),或者是准确率(accuracy)这些指标并不能很好的反映出来效果如何。比如97个正样本,3个负样本,在识别的时候,全部识别...原创 2019-11-13 11:07:30 · 1080 阅读 · 0 评论 -
机器学习与python实战(一)-k近邻
kNN(k-nearest neighbor)算法是一个简单而经典的机器学习分类算法,通过度量”待分类数据”和”类别已知的样本”的距离对样本进行分类。 from numpy import * import operator #产生数据集 def createDataSet(): groups = array([[1.0, 1.0], [1.0, 1.1], [0, 0], [0, 0.1]]原创 2017-09-04 20:48:40 · 334 阅读 · 1 评论 -
KNN算法理解
转自:http://blog.youkuaiyun.com/jmydream/article/details/8644004一、算法概述 1、kNN算法又称为k近邻分类(k-nearest neighbor classification)算法。 最简单平凡的分类器也许是那种死记硬背式的分类器,记住所有的训练数据,对于新的数据则直接和训练数据匹配,如果存在相同属性的训练数据,则直接用它的分类来作为新数据的分类。这转载 2017-11-06 11:11:59 · 348 阅读 · 0 评论 -
anaconda下载
官网下载较慢,推荐从清华大学开源软件镜像站下载。 下载地址: https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 下面是python版本与anaconda的版本对应表 参考:https://blog.youkuaiyun.com/yuejisuo1948/article/details/81043823 ...原创 2019-03-15 21:02:32 · 888 阅读 · 0 评论