高效特征选择与条件随机场领域自适应技术
在信息检索领域,随着互联网数据的快速增长,特征选择变得至关重要。然而,数据中常常存在异常值和噪声特征,这给特征选择算法带来了挑战。同时,条件随机场(CRFs)在许多领域取得了良好效果,但测试数据与训练数据的领域差异会影响其性能。本文将介绍几种针对这些问题的算法及技术。
特征选择算法
1. 针对异常值的Ramp - Relief算法
Relief算法旨在最大化训练集上的经验平均间隔,也可以看作是最小化基于间隔的损失函数的经验和:
[
\begin{align }
&\min \sum_{n = 1}^{N} l(w^T m_n)\
&\text{s.t.} : ||w|| = 1, w_d \geq 0, d = 1, 2, …, D
\end{align }
]
其中(l(\cdot))是基于间隔的损失函数。标准Relief使用简单的线性损失函数(l(z)= - z)。为了简化计算,本文解决一个近似问题:
[
\begin{align }
&\min \sum_{n = 1}^{N} w^T l(m_n)\
&\text{s.t.} : ||w|| = 1, w_d \geq 0, d = 1, 2, …, D
\end{align }
]
并采用了(\psi) - 学习中使用的Ramp损失函数的变体:
[
r(z) = \max(z_2, \min(z_0 - z, z_1)) =
\begi
超级会员免费看
订阅专栏 解锁全文
733

被折叠的 条评论
为什么被折叠?



