特征工程面试题

这篇博客主要介绍了特征工程在面试中常见的10个问题,包括特征工程的定义、步骤、数据预处理方法、数据不平衡的解决方案、特征选择与特征提取的区别等。内容详尽,涵盖了从数据预处理中的缺失值、异常值处理到主成分分析PCA、线性判别分析LDA和奇异值分解SVD的工作原理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

关于特征工程的题目

1.什么是特征工程?

答:本质上来说,呈现给算法的数据应该能拥有基本数据的相关结构或属性。当你做特征工程时,其实是将数据属性转换为数据特征的过程,属性代表了数据的所有维度,在数据建模时,如果对原始数据的所有属性进行学习,并不能很好的找到数据的潜在趋势,而通过特征工程对你的数据进行预处理的话,你的算法模型能够减少受到噪声的干扰,这样能够更好的找出趋势。事实上,好的特征甚至能够帮你实现使用简单的模型达到很好的效果。

2.特征工程分哪几步?

答:①数据预处理;②特征选择;③特征提取。

3.原始数据通常存在哪些问题如何解决?(数据预处理的问题)

答:①缺失值:删除缺失的样本,或者补值,根据统计学原理,连续数据取平均,离散数据取众数;

②异常值

怎么检测异常值:

​ 1.基于高斯分布的异常值检测:3σ原则也是属于高斯分布判断方法的一种,在这里异常值被定义为,其值 与平均值的偏差超过三倍标准差的值,在正态分布的假设下,区域u+3σ包含了99.7% 的数据,如果某个值距离分布的均值超过了3σ,那么这个值就可以被简单的标记为一个异常点:P(|x−μ|>3σ)≤0.003

​ 2.四分位数

​ 3.更多的还有基于各类统计量来检测多元离群点,例如x^2检验、t检验等。

​ 4.基于主成分分析的矩阵分解方法,这种方法经过主成分分析分解,再进行重构,通过异常值在主成分分量上 的偏差更大来判断是否异常。

​ 5.基于距离,利用聚类的思想,对数据进行聚类.,排除距离中心最远的N个点,一般的方法有,kmeans、knn、DBSCAN等。

怎么处理异常值:

​ 1.删除含有异常

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值