【转载】特征选择与特征提取

本文详细解释了特征选择和特征提取的区别,特征选择是保留关键特征的过程,而特征提取是将原始数据转换为机器可读的数值特征。通过文本分类的例子,展示了词袋模型和TF-IDF在特征提取中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在我刚开始接触机器学习的时候,总会被特征选择(feature selection)与特征提取(feature extraction)这两个概念搞得晕头转向,当我在看一些论文时,只要遇到了这两个概念就会让我很苦恼,所以有段时间索性就不加区分地把这两个概念当作一个意思在使用。而网上相当一部分文章也是不加区分地使用这两个概念,这就让我更加地迷惑了。

直到有一天我在阅读scikit-learn源码及其文档的时候,偶然间发现scikit-learn将特征选择和特征提取分在了两个文档里进行描述,于是深入进去学习后,终于明白了二者的区别。

首先需要说明的是,特征选择和特征提取是两个完全不同的概念。

特征选择是指去掉无关特征,保留相关特征的过程,也可以认为是从所有的特征中选择一个最好的特征子集。特征选择本质上可以认为是降维的过程。

特征提取是指将机器学习算法不能识别的原始数据转化为算法可以识别的特征的过程。比如说,文本是由一系列文字组成的,这些文字在经过分词后会形成一个词语集合,对于这些词语集合(原始数据),机器学习算法是不能直接使用的,我们需要将它们转化成机器学习算法可以识别的数值特征(固定长度的向量表示),然后再交给机器学习的算法进行操作。再比如说,图片是由一系列像素点构(原始数据)成的,这些像素点本身无法被机器学习算法直接使用,但是如果将这些像素点转化成矩阵的形式(数值特征),那么机器学习算法就可以使用了。

从上面的概念可以看出,特征提取实际上是把原始数据转化为机器学习算法可以识别的数值特征的过程,不存在降维的概念,特征提取不需要理会这些特征是否是有用的;而特征选择是在提取出来的特征中选择最优的一个特征子集。

关于特征选择的方法,可以参见博客:http://blog.youkuaiyun.com/henryczj/article/details/41043883

这里以文本分类为例来看一下特征提取。

假设一个语料库里包含了很多文章,在对每篇文章作了分词之后,可以把每篇文章看作词语的集合。然后将每篇文章作为数据来训练分类模型,但是这些原始数据是一些词语并且每篇文章词语个数不一样,无法直接被机器学习算法所使用,机器学习算法需要的是定长的数值化的特征。因此,我们要做的就是把这些原始数据数值化,这就对应了特征提取。如何做呢?

1.     对训练数据里的每一篇文章,我们进行词语的统计,以形成一个词典向量。词典向量里包含了训练数据里的所有词语(假设停用词已去除),且每个词语代表词典向量中的一个元素。

2.     在经过第一步的处理后,每篇文章都可以用词典向量来表示。这样一来,每篇文章都可以被看作是元素相同且长度相同的向量,不同的文章具有不同的向量值。这也就是表示文本的词袋模型(bag of words)。

3.     针对于特定的文章,如何给表示它的向量的每一个元素赋值呢?最简单直接的办法就是0-1法了。简单来说,对于每一篇文章,我们扫描它的词语集合,如果某一个词语出现在了词典中,那么该词语在词典向量中对应的元素置为1,否则为0。这是最简单的方式。其它的方式还包括IR中著名的tf-idf。

在经过上面三步之后,特征提取就完成了。对于每一篇文章,其中必然包含了大量无关的特征,而如何去除这些无关的特征,就是特征选择要做的事情了。

关于词袋模型(bag of words)的优缺点以及到底是用tf-idf为向量赋值还是0-1法为向量赋值,这里不作讨论了。

需要注意的是,tf-idf可以看做是特征提取的一个步骤。但实践中很多人将tf-idf作为特征选择的一个方法在使用,这是错误的,尽管它在有些时候效果还不错。
--------------------- 
作者:chenzhijay 
来源:优快云 
原文:https://blog.youkuaiyun.com/henryczj/article/details/41284201 
版权声明:本文为博主原创文章,转载请附上博文链接!

### Python 实现人脸识别的转载教程或文章 以下是关于如何使用 Python 进行人脸识别的一些常见方法和技术细节: #### 使用 OpenCV 库实现基础人脸识别 OpenCV 是一个强大的计算机视觉库,支持多种编程语言,包括 Python。它提供了简单易用的功能来检测图像中的人脸位置[^2]。 ```python import cv2 # 加载图片并将其转换为灰度图 image = cv2.imread('example.jpg') gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) # 初始化 Haar Cascade 分类器 face_cascade = cv2.CascadeClassifier(cv2.data.haarcascades + 'haarcascade_frontalface_default.xml') # 检测人脸 detected_faces = face_cascade.detectMultiScale(gray_image, scaleFactor=1.1, minNeighbors=5, minSize=(30, 30)) # 绘制矩形框标记每张检测到的脸部区域 for (x, y, w, h) in detected_faces: cv2.rectangle(image, (x, y), (x+w, y+h), (255, 0, 0), 2) cv2.imshow('Detected Faces', image) cv2.waitKey(0) cv2.destroyAllWindows() ``` 这段代码展示了如何加载一张图片并通过 OpenCV 的 `CascadeClassifier` 来定位其中的人脸,并绘制边界框显示结果[^2]。 #### Django Web 应用人脸识别登录功能的设计思路 对于希望集成人脸识别作为身份验证手段的应用程序来说,Django 提供了一个灵活而安全的选择。通过结合前端摄像头捕获视频流以及后端服务器上的模型推理过程,可以构建一套完整的解决方案[^1]。 具体而言,在客户端部分可以通过 HTML5 Video API 获取实时影像数据传输给服务端;而后者的逻辑则主要依赖于像 dlib 或者 TensorFlow/Keras 构建更复杂的神经网络架构来进行精准匹配操作[^1]。 #### 更高级别的工具——Face Recognition Library 除了原始级别的特征提取外,“face_recognition”包进一步简化了整个流程,允许开发者仅需几行命令即可完成编码工作[^3]: ```python import face_recognition from PIL import Image, ImageDraw known_image = face_recognition.load_image_file("person1.jpg") unknown_image = face_recognition.load_image_file("unknown_person.jpg") biden_encoding = face_recognition.face_encodings(known_image)[0] unknown_encoding = face_recognition.face_encodings(unknown_image)[0] results = face_recognition.compare_faces([biden_encoding], unknown_encoding) print(f"Is the person known? {results}") ``` 此脚本会读取两张照片并将它们转化为数值向量表示形式以便比较相似程度从而判断是否属于同一个人物实例[^3]. --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值