基于最小生成树的文本数据挖掘探索
在文本数据挖掘领域,利用最小生成树(MST)进行自动化意外发现提取和聚类分析是一种创新的方法。接下来,我们将深入探讨这一方法在不同数据集上的应用及成果。
1. 不同数据集的特点与挑战
在对不同数据集进行分析时,我们发现它们具有各自独特的特点和挑战。
- ONR ILIR 数据集 :该数据集的文章长度相较于 Science News 数据集更短,且文章集合更为正交。Science News 数据集中来自同一学科类型的文章数量更多,这可能与 ONR ILIR 数据集本身的性质以及文章数量较少有关。
- Science News 数据集 :文章相对较长,同一学科类型的文章占比较大,为分析提供了丰富的同一领域数据,但也增加了挖掘不同领域关联的难度。
2. ONR ILIR 数据集的自动化意外发现提取
在对 ONR ILIR 数据集进行分析时,我们使用了自动化意外发现提取工具,发现了许多有价值的信息。
2.1 跨类别文章关联
- 计算流体动力学关联 :来自“Air Platform and Systems”和“Sea Platform and Systems”类别的两篇文章,虽 BPM 共性列表较短,但包含如“(navier, stokes)”、“(high, reynolds)”等有意义的关联。这两个项目在不同实验室(NSWCDD 和 NAVSTO)、不同年份(FY01 和 FY99/00)执行,研究人
超级会员免费看
订阅专栏 解锁全文
1131

被折叠的 条评论
为什么被折叠?



