文本聚类 工作流将Grimm的故事语料库聚集在一起。我们首先对数据进行预处理,构建词包矩阵,然后计算文档之间的余弦距离,并使用层次聚类来显示树状图。我们观察到故障类型与MDS中的集群对应的程度。 完整的流程图如下: 操作步骤: 步骤1: 启动Orange3,拖动语料库到画布,并加载格林的格式文件: 步骤2: 拖动语料库右边的虚线,选择词袋组件: 词袋组件词频率采用计数方式: