词袋模型(Bag of Words, 简称 BoW)
词袋模型是一种常见的文本表示方法,主要用于自然语言处理(NLP)和信息检索领域。它将文本数据转换为特征向量,忽略语序,仅考虑词的出现与否或出现频率。
1. 基本思想
- 把文本看作一个词的集合(袋子),忽略语序和句法结构。
- 对文本中的所有独立词汇建立一个词汇表(Vocabulary)。
- 每个文本用一个固定大小的向量表示,向量的每一维对应词汇表中的一个词。
- 向量值可以是:
- 词频(Term Frequency, TF)。
- 二进制值(出现记为 1,不出现记为 0)。
- 权重(如 TF-IDF)。
2. 特征表示步骤
(1) 词汇提取
- 文本预处理:
- 分词:将句子切分成单独的词。
- 去停用词:去掉“的”、“是”、“了”等无意义的高频词。
- 小写化:统一词的大小写。
- 去除标点符号。
- 建立词汇表:
- 根据所有