Datawhale零基础入门NLP赛事-Task3
本笔记是参加Datawhale零基础入门NLP赛事的学习笔记。
文本表示方法
- 词嵌入(Word Embedding) 是单词的一种数值化表示方式。它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。
- One-hot编码 又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。
- 词袋(Bag of words) 也称为计数向量表示(Count Vectors)。文档的向量表示可以直接用单词的向量进行求和得到。其具体实现可以采用sklearn中的CountVectorizer。本质是一种one-hot表示法。
- Bi-gram和N-gram Bi-gram将相邻两个单词编上索引,N-gram将相邻N个单词编上索引。
- TF-IDF 是TF(Term Frequency,词频)和 IDF(Inverse Document Frequency,逆向文档频率)的乘积,TF-IDF体现了一个单词在某篇文档中的重要性信息,但是不能体现位置信息,和词的上下文信息。
基于机器学习的文本分类
-
岭回归
是带二范数惩罚的最小二乘回归。
最小二乘法是对普通线性回归参数估计的一种方法,目标是是loss function达到最小,而此时的loss function是误差平方和。 -
词袋