1. CountVector
最基础的文本特征提取方法。对于每一个训练文本,它只考虑每种词汇在该训练文本中出现的概率。简单一句话,将文本转化为token计数矩阵。
原理:
假设有一个语料库C,其中有D个文档:{d1,d2,…,dD},C中一共有N个word,这N个word构成了原始输入的dictionary,因此,可以生成一个矩阵M,其规模是D×N。
- 重点:每个文档用词向量的组合来表示,每个词的权重用其出现的次数来表示
- 优点:简单、直接、好理解
- 缺点:如果语料库庞大,则上述矩阵非常稀疏,给后续运算带来麻烦
- 优化:出现最频繁的词来构建dictionary(例如:top10000个词),可以有效缩减规模
实践:
-
手动实现
texts =