数据挖掘在文本风格分析与蛋白质结构预测中的应用
1. 计算文体学与决策算法分析
1.1 计算文体学概述
计算文体学聚焦于书面文档语言风格的描述和量化表达,这有助于作者特征刻画、风格比较以及作者归属判定。其核心概念在于,尽管作者在一定程度上潜意识地使用语言特征,但通过所谓的作者不变量(一组对于同一作者文本保持一致,而对于不同作者文本有明显差异的标记),仍可检测出他们的个人风格。
在文本分析中,选择合适的特征描述文本是关键决策之一。由于文体学研究界对于应采用哪些文本标记尚无共识,领域知识往往不足以做出明智的特征选择。因此,一种可行的方法是尽可能收集更多数据,依靠处理技术自身的降维机制来去除无关或冗余信息。
1.2 数据挖掘与 DRSA
经典粗糙集方法(CRSA)通过条件属性值来区分对象,其不可分辨关系仅适用于名义分类,即处理抽象或离散数据。为处理实值数据集,可采用离散化方法,或使用基于优势的粗糙集方法(DRSA)。
在 DRSA 中,帕累托或优势原则取代了不可分辨性,即如果对象 x 在条件属性上至少与对象 y 一样好,那么 x 应至少与 y 分类相同。这种方法不仅能处理名义数据,还能处理有序数据。
数据处理的第一步是构建决策表,该表包含了关于对象的所有知识。决策表通常包含过多数据,因此在检查其一致性后,需要进行降维处理。粗糙集方法提供了两种降维机制:一是找到相对约简,即保持决策表分类属性的条件属性子集;二是根据支持度和长度丢弃一些计算出的决策规则。
1.3 基于约简的属性分析
过去的研究关注条件属性在约简和规则中的出现频率,但这种方法假设所有约简具有相同
超级会员免费看
订阅专栏 解锁全文
25

被折叠的 条评论
为什么被折叠?



