文档评分 根据词语出现情况对文档进行评分。 输入 语料库:文档集合 词语:包含至少一列词语的表格 输出 语料库:包含评分的文档集合 文档评分组件根据输入的词语为每个文档分配分数。系统会为每个词语按选定评分方法计算分数,并通过选定的聚合函数在文档级别汇总得分。 选择词语评分方法: 词频统计:统计词语在文本中的出现次数。 词占比:表示词语在文档中的出现比例。 相似度:文档向量与词语向量的余弦相似度。 选择聚合函数:将词语分数汇总为文档分数(均值、中位数、最小值或最大值)。 选择文档输出方式: 无:不输出任何文档 全部ÿ