关于特征选择的一些思考

问1:特征选择的常用方法有哪些?
答1:信息增益、卡方、基尼系数、信息增益率


问2:信息增益的公式是什么?
答2:IG(T)=H(C)-H(C|T)
H(C)=-∑p(Ci)log(p(Ci))
H(C|T)=∑p(Ti)H(Ci|Ti)
信息增益越大,特征相关性越大


问3:卡方的公式是什么?
答3:D=D11+D12+D21+D22
D11=(A-E11)^2/E11
E11=(A+C)((A+B)/N)
x^2=(AD-BC)^2/((A+B)(A+C)(B+D)(C+D))
≈(AD-BC)^2/((A+B)(C+D))
卡方值越大,特征相关性越大
                属于类C 不属于类C
包含特征           A        B
不包含特征         C         D


问3:基尼系数的公式是什么?
答3:G(D)=1-∑pi^2
G(D|T)=(|D1|/|D|)*G(D1)+(|D2|/|D|)*G(D2)
△G(D)=G(D)-G(D|T)
基尼系数增长越大,特征相关性越大
当T包含多个值时,选取G(D|T)最小的值为分裂后的基尼系数


问4:皮尔森相关系数的公式是什么?
答4:∑(xi-x')(y-y')/sqrt(∑(xi-x')^2)sqrt(∑(yi-y')^2)




问5:欧式距离的公式是什么?
答5:sqrt(∑(xi-yi)^2)
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值