统计 为文档创建新的统计变量。 输入 语料库:文档集合。 输出 语料库:添加了额外属性的语料库。 统计是一个特征构造工具,用于向语料库添加简单的文档统计量。它支持标准统计指标和用户自定义变量。 添加或移除特征: 通过下方的 + 添加特征,左侧的 × 移除特征。 特征选项: 词数:文档中的单词数量。 字符数:文档中的字符总数。 N-gram 数量:N-gram 的数量(需在[预处理文本]中定义,否则仅统计 unigram)。 平均词长:字符数与词数的比例。 标点符号数