特征工程杂项

本文介绍了卡方检验,一种比较理论频数与实际频数吻合度的统计方法,及特征选择的重要性,包括评估特征的发散性和与目标的相关性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数学知识

卡方检验:比较理论频数与实际频数的吻合程度。
在这里插入图片描述
其中,A为实际值,T为理论值。
x2用于衡量实际值与理论值的差异程度(也就是卡方检验的核心思想),包含了以下两个信息:

  1. 实际值与理论值偏差的绝对大小(由于平方的存在,差异是被放大的)

  2. 差异程度与理论值的相对大小

  3. 这里需要用到一个自由度的概念,自由度等于V = (行数 - 1) * (列数 - 1),对四格表,自由度V = 1。

特征选择

特征是否发散:即特征的方差是否接近于0,方差接近于0时,特征不具有区分性
特征与目标的相关性:选择与目标相关性高的特征。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值