自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

转载 特征选择方法1(去掉取值变化小的特征)

去掉取值变化小的特征(Removing features with low variance)1)该方法一般用在特征选择前作为一个预处理的工作,即先去掉取值变化小的特征,然后再使用其他特征选择方法选择特征。2)考察某个特征下,样本的方差值,可以认为给定一个阈值,抛弃哪些小于某个阈值的特征。3)例子(1)离散型变量:假设某特征的特征值只有0和1,并且在所有输入样本中,95%的实例的该特征取值都是1,那就可以认为这个特征作用不大。如果100%都是1,那这个特征就没意义了。(2)连续型变量:需

2021-12-29 15:30:21 532

原创 SVM二分类用图像表示

随机生成100个点,用于SVM二分类# 导入相关的包import numpy as npimport pylab as pl # 绘图功能from sklearn import svm# 创建 100 个点# X(前50个点,每个坐标数值-2,后50个点每个坐标数值+2)#Y(前50个坐标标签为0,后50个坐标标签为1)np.random.seed(0) # 让每次运行程序生成的随机样本点不变# 生成训练实例并保证是线性可分的# np._r表示将矩阵在行方向上进行相连# rand.

2021-11-16 11:17:48 827

原创 SVM算法进行二分类

1.预测类别是1还是2import numpy as npX = np.array([[-1, 1], [-2, -1], [3, 1], [2, 1]]) #数据特征y = np.array([1, 2, 1, 2]) # 数据对应的标签from sklearn.svm import SVC # 导入svm的svc类(支持向量分类)clf = SVC() # 创建分类器对象clf.fit(X, y) # 用训练数据拟合分类器模型SVC(C=1.0, cache_size=200)

2021-11-16 11:10:33 2108

原创 向量空间模型原理(VSM)

VSM概念介绍VSM概念简单来说,就是把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。下面首先给出VSM涉及的一些基本概念。文档(document):通常是文章中具有一定规模的片段,如句子、句群、段落、段落组直至整篇文章。项/特征项(term/feature term):特征项是VSM中最小的不可分的语言单元,可以是字、词

2021-11-16 10:59:28 2030

转载 图像的特征向量

为了存储图像,计算机要存储三个独立的矩阵(矩阵可以理解成二维数组),这三个矩阵分别与此图像的红色、绿色和蓝色相对应(世界上的所有颜色都可以通过红绿蓝三种颜色调配出来)。如果图像的大小是64 * 64个像素(一个像素就是一个颜色点,一个颜色点由红绿蓝三个值来表示,例如,红绿蓝为255,255,255,那么这个颜色点就是白色),所以3个64 * 64大小的矩阵在计算机中就代表了这张图像,矩阵里面的数值就对应于图像的红绿蓝强度值。 ...

2021-11-14 20:34:32 6106 1

原创 txt文本输出鸢尾花数据集

from sklearn.datasets import load_iris # 导入数据集irisimport numpydataSet = load_iris() #载入数据集numpy.savetxt('1.txt',dataSet.data) #文本输出鸢尾花数据集print(dataSet)

2021-11-14 17:34:59 1652

转载 KNN二分类和五分类算法

KNN算法简介KNN(K-Nearest Neighbor)最邻近分类算法是数据挖掘分类(classification)技术中最简单的算法之一,其指导思想是”近朱者赤,近墨者黑“,即由你的邻居来推断出你的类别。KNN最邻近分类算法的实现原理:为了判断未知样本的类别,以所有已知类别的样本作为参照,计算未知样本与所有已知样本的距离,从中选取与未知样本距离最近的K个已知样本,根据少数服从多数的投票法则(majority-voting),将未知样本与K个最邻近样本中所属类别占比较多的归为一类。 ...

2021-11-14 17:30:50 2321

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除