文本特征选择与缅甸语移动设备位置服务研究
1 特征选择方法概述
在特征选择领域,包装器方法可能会出现过拟合问题。为了解决这一问题,引入了混合方案,它结合了包装器和过滤器方法。混合方法有多种实现方式,比如有的混合方法会结合两个过滤器或两个包装器,像将人工蜂群算法(ABC)和差分进化算法(DE)这两个包装器结合的方法。不过,使用两个包装器时计算复杂度会较高。过滤器 - 过滤器方法在文献中并不常见,除非将多个过滤器与某个包装器方法结合。因此,包装器 - 过滤器或过滤器 - 包装器方法在文献中更为常见。
这些混合方法还可以通过不同方式进行组合,例如使用模因算法(MA)。MA 是一种基于混合种群的方法,旨在增强全局搜索方法(如遗传算法 GA)的开发能力。此外,MA 还可以通过集成局部搜索来增强全局搜索,局部搜索会迭代地处理解决方案。在文本特征选择中,MA 有两种应用方式:一是在包装器内部使用过滤器;二是将包装器与非过滤器方法结合,如使用基于导数的局部搜索方法,像爬山法、混沌搜索和模拟退火(SA)方法等,这些方法能有效地将当前解决方案逼近到其最佳邻近位置。例如,新提出的基于种群的优化算法鲸鱼优化算法(WOA)就与 SA 在文献中进行了结合,SA 用于增强 WOA 包装器以寻找更准确的特征子集。MA 还用于多分类数据的特征选择。
2 提出的特征选择方法
2.1 文本准备
文本准备是一个预处理步骤,它将文本语料库重构为结构化格式。具体过程如下:
1. 释放每个文档的内容,生成一个引用其原始文档的特征空间。特征是从文档中选择的关键词,根据它们在文本语料库中的出现频率计算权重。
2. 权重必须具有区分能力,能够区分不同的文档。但由于
超级会员免费看
订阅专栏 解锁全文
765

被折叠的 条评论
为什么被折叠?



