weixin_46737718-优快云博客

转载特征选择方法1(去掉取值变化小的特征)

去掉取值变化小的特征（Removing features with low variance）1）该方法一般用在特征选择前作为一个预处理的工作，即先去掉取值变化小的特征，然后再使用其他特征选择方法选择特征。2）考察某个特征下，样本的方差值，可以认为给定一个阈值，抛弃哪些小于某个阈值的特征。3）例子（1）离散型变量：假设某特征的特征值只有0和1，并且在所有输入样本中，95%的实例的该特征取值都是1，那就可以认为这个特征作用不大。如果100%都是1，那这个特征就没意义了。（2）连续型变量：需

2021-12-29 15:30:21 532

原创 SVM二分类用图像表示

随机生成100个点，用于SVM二分类# 导入相关的包import numpy as npimport pylab as pl # 绘图功能from sklearn import svm# 创建 100 个点# X(前50个点，每个坐标数值-2，后50个点每个坐标数值+2)#Y(前50个坐标标签为0，后50个坐标标签为1)np.random.seed(0) # 让每次运行程序生成的随机样本点不变# 生成训练实例并保证是线性可分的# np._r表示将矩阵在行方向上进行相连# rand.

2021-11-16 11:17:48 827

原创 SVM算法进行二分类

1.预测类别是1还是2import numpy as npX = np.array([[-1, 1], [-2, -1], [3, 1], [2, 1]]) #数据特征y = np.array([1, 2, 1, 2]) # 数据对应的标签from sklearn.svm import SVC # 导入svm的svc类（支持向量分类）clf = SVC() # 创建分类器对象clf.fit(X, y) # 用训练数据拟合分类器模型SVC(C=1.0, cache_size=200)

2021-11-16 11:10:33 2108

原创向量空间模型原理(VSM)

VSM概念介绍VSM概念简单来说，就是把对文本内容的处理简化为向量空间中的向量运算，并且它以空间上的相似度表达语义的相似度，直观易懂。当文档被表示为文档空间的向量，就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。下面首先给出VSM涉及的一些基本概念。文档(document)：通常是文章中具有一定规模的片段，如句子、句群、段落、段落组直至整篇文章。项/特征项(term/feature term)：特征项是VSM中最小的不可分的语言单元，可以是字、词

2021-11-16 10:59:28 2030

转载图像的特征向量

为了存储图像，计算机要存储三个独立的矩阵（矩阵可以理解成二维数组），这三个矩阵分别与此图像的红色、绿色和蓝色相对应（世界上的所有颜色都可以通过红绿蓝三种颜色调配出来）。如果图像的大小是64 * 64个像素（一个像素就是一个颜色点，一个颜色点由红绿蓝三个值来表示，例如，红绿蓝为255,255,255，那么这个颜色点就是白色），所以3个64 * 64大小的矩阵在计算机中就代表了这张图像，矩阵里面的数值就对应于图像的红绿蓝强度值。 ...

2021-11-14 20:34:32 6106 1

原创 txt文本输出鸢尾花数据集

from sklearn.datasets import load_iris # 导入数据集irisimport numpydataSet = load_iris() #载入数据集numpy.savetxt('1.txt',dataSet.data) #文本输出鸢尾花数据集print(dataSet)

2021-11-14 17:34:59 1652

转载 KNN二分类和五分类算法

KNN算法简介KNN（K-Nearest Neighbor）最邻近分类算法是数据挖掘分类（classification）技术中最简单的算法之一，其指导思想是”近朱者赤，近墨者黑“，即由你的邻居来推断出你的类别。KNN最邻近分类算法的实现原理：为了判断未知样本的类别，以所有已知类别的样本作为参照，计算未知样本与所有已知样本的距离，从中选取与未知样本距离最近的K个已知样本，根据少数服从多数的投票法则（majority-voting），将未知样本与K个最邻近样本中所属类别占比较多的归为一类。 ...

2021-11-14 17:30:50 2321

weixin_46737718的博客