文本预处理 对语料库执行选定的预处理方法。 输入 语料库:文档集。 输出 语料库:预处理后的语料库。 文本预处理工具将文本拆分为更小的单元(词元),过滤词元,执行归一化(词干提取、词形还原),生成N-gram,并为词元添加词性标签。分析步骤按顺序应用,并可重新排序。如需调整顺序,请拖动预处理器。 可用的预处理器。 转换:对输入数据进行转换(默认为小写转换)。