- 博客(7)
- 收藏
- 关注
转载 特征选择方法1(去掉取值变化小的特征)
去掉取值变化小的特征(Removing features with low variance)1)该方法一般用在特征选择前作为一个预处理的工作,即先去掉取值变化小的特征,然后再使用其他特征选择方法选择特征。2)考察某个特征下,样本的方差值,可以认为给定一个阈值,抛弃哪些小于某个阈值的特征。3)例子(1)离散型变量:假设某特征的特征值只有0和1,并且在所有输入样本中,95%的实例的该特征取值都是1,那就可以认为这个特征作用不大。如果100%都是1,那这个特征就没意义了。(2)连续型变量:需
2021-12-29 15:30:21
532
原创 SVM二分类用图像表示
随机生成100个点,用于SVM二分类# 导入相关的包import numpy as npimport pylab as pl # 绘图功能from sklearn import svm# 创建 100 个点# X(前50个点,每个坐标数值-2,后50个点每个坐标数值+2)#Y(前50个坐标标签为0,后50个坐标标签为1)np.random.seed(0) # 让每次运行程序生成的随机样本点不变# 生成训练实例并保证是线性可分的# np._r表示将矩阵在行方向上进行相连# rand.
2021-11-16 11:17:48
827
原创 SVM算法进行二分类
1.预测类别是1还是2import numpy as npX = np.array([[-1, 1], [-2, -1], [3, 1], [2, 1]]) #数据特征y = np.array([1, 2, 1, 2]) # 数据对应的标签from sklearn.svm import SVC # 导入svm的svc类(支持向量分类)clf = SVC() # 创建分类器对象clf.fit(X, y) # 用训练数据拟合分类器模型SVC(C=1.0, cache_size=200)
2021-11-16 11:10:33
2108
原创 向量空间模型原理(VSM)
VSM概念介绍VSM概念简单来说,就是把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。下面首先给出VSM涉及的一些基本概念。文档(document):通常是文章中具有一定规模的片段,如句子、句群、段落、段落组直至整篇文章。项/特征项(term/feature term):特征项是VSM中最小的不可分的语言单元,可以是字、词
2021-11-16 10:59:28
2030
转载 图像的特征向量
为了存储图像,计算机要存储三个独立的矩阵(矩阵可以理解成二维数组),这三个矩阵分别与此图像的红色、绿色和蓝色相对应(世界上的所有颜色都可以通过红绿蓝三种颜色调配出来)。如果图像的大小是64 * 64个像素(一个像素就是一个颜色点,一个颜色点由红绿蓝三个值来表示,例如,红绿蓝为255,255,255,那么这个颜色点就是白色),所以3个64 * 64大小的矩阵在计算机中就代表了这张图像,矩阵里面的数值就对应于图像的红绿蓝强度值。 ...
2021-11-14 20:34:32
6106
1
原创 txt文本输出鸢尾花数据集
from sklearn.datasets import load_iris # 导入数据集irisimport numpydataSet = load_iris() #载入数据集numpy.savetxt('1.txt',dataSet.data) #文本输出鸢尾花数据集print(dataSet)
2021-11-14 17:34:59
1652
转载 KNN二分类和五分类算法
KNN算法简介KNN(K-Nearest Neighbor)最邻近分类算法是数据挖掘分类(classification)技术中最简单的算法之一,其指导思想是”近朱者赤,近墨者黑“,即由你的邻居来推断出你的类别。KNN最邻近分类算法的实现原理:为了判断未知样本的类别,以所有已知类别的样本作为参照,计算未知样本与所有已知样本的距离,从中选取与未知样本距离最近的K个已知样本,根据少数服从多数的投票法则(majority-voting),将未知样本与K个最邻近样本中所属类别占比较多的归为一类。 ...
2021-11-14 17:30:50
2321
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人