文本分类的两阶段特征选择管道研究
1 相关工作
1.1 遗传算法(GA)
遗传算法是一种基于达尔文自然选择进化理论的进化算法。它将候选解决方案以位串的形式呈现,并对这些位串的种群应用选择、交叉和变异三个算子,在搜索空间中寻找最优特征子集。例如,Tan等人使用GA在特征池中搜索最优子集,以限制特征子集的大小。该特征池通过基于熵的特征排名和T统计方法创建,从而最大化分类准确率(如朴素贝叶斯和关联分类)并最小化特征子集的大小。Tsai等人提出了基于生物进化的遗传算法(BGA),其思想是让生物体在长期进化后有效地分配资源。引入精英保留和迁移等新机制有助于减少子集选择所需的时间,并在k - NN和SVM分类器上取得了略好的性能。
1.2 粒子群优化算法(PSO)
粒子群优化算法是Eberhart和Kennedy在1995年引入的一种元启发式算法,它基于鸟群的群聚行为。PSO首先初始化一群潜在解决方案,即粒子。每个粒子除了具有速度外,还具有一个位置(定义了粒子所代表的解决方案)。开始时,位置和速度都是随机初始化的。粒子在搜索空间中移动,根据自身经验和相邻粒子的信息更新其速度。更新后的速度与当前位置一起用于找到粒子的新位置,最终粒子收敛到最佳位置,即具有最佳适应度值的位置。其速度和位置的变化由以下数学方程控制:
[
\begin{align }
V_i(n + 1) &= w \cdot V_i(n) + c_1 \cdot r_1(n) \cdot [P_i(n) - X_i(n)] + c_2 \cdot r_2(n) \cdot [P_g(n) - X_i(n)] \
X_i(n + 1) &=
超级会员免费看
订阅专栏 解锁全文
1027

被折叠的 条评论
为什么被折叠?



