基于径向基函数网络与文档频率度量的文本分类技术
1. 径向基函数网络文本分类模型
径向基函数(RBF)网络可用于文本分类。对于给定的文档集合,它能构建模型来描述集合中术语和文档的主要相关性。基于RBF网络的文本分类器的构建涉及特征选择、文档向量构建和网络训练。
- 特征选择 :
- 非监督选择 :去除常见词、频率极低和极高的词,用词干替代具有相同词干的词。
- 监督选择 :根据训练数据集中文档类之间的频率分布,使用信息增益作为选择标准,进一步确定在文档类之间分布差异最大的特征。
- 文档向量构建 :每个文档被编码为所选特征值的数值向量,向量的每个分量表示保留术语的局部和全局权重的组合,通过log(tf)-idf加权方案计算。
- 网络训练 :
- 第一阶段 :使用k-means算法的变体确定RBF中心和宽度,对每个文档类和背景未标记内容向量进行聚类,构建输入训练数据空间中密度分布的表示。
- 第二阶段 :使用逻辑回归算法确定网络输出层的权重。
训练过程总结如下:
1. 对所有标记和未标记的训练数据进行特征选择。
2. 构建结合特征局部和全局权重的训练文档内容向量。
3. 使用k-means聚类算法对每个文档类中的标记内容向量和背景未标记内容向量进行聚类,然后确定RBF参数。
4. 使用逻辑回归算法在标记内容向量上确定网络输出层的权
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



