文本向量化、转换与 n-gram 处理
1. 向量及其必要性
在文本分析迈向机器学习的进程中,我们将更多地与数字而非文字打交道。即便使用 spaCy 进行词性标注(POS-tagging)和命名实体识别(NER-tagging)时利用了统计模型,但其内部运作对我们来说大多是隐藏的,我们输入 Unicode 文本,经过处理后得到标注文本。
对于 Gensim 而言,我们需要将向量作为输入传递给信息检索(IR)算法(如 LDA 或 LSI),因为其底层是涉及矩阵的数学运算。这就要求我们把原本的字符串表示为向量,这种表示方式或模型被称为向量空间模型。
从数学角度看,向量是具有大小和方向的几何对象,但我们更应将其视为在保留单词信息的同时,把单词投影到数学空间的一种方式。机器学习算法利用这些向量进行预测,其目的是通过减少预测误差从给定数据中学习。
2. 向量表示形式
2.1 词袋模型(Bag-of-words)
词袋模型是将句子表示为向量的最直接形式。以下是一个示例:
- 原始句子:
- S1: “The dog sat by the mat.”
- S2: “The cat loves the dog.”
- 经过预处理后:
- S1: “dog sat mat.”
- S2: “cat love dog.”
- 转换为 Python 列表:
- S1: [‘dog’, ‘sat’, ‘mat’]
- S2: [‘cat’, ‘love’, ‘dog’]
- 构建词汇表:
- Vocab = [‘dog’, ‘s
超级会员免费看
订阅专栏 解锁全文
824

被折叠的 条评论
为什么被折叠?



