文本数据的向量表示与处理
1. 引言
在机器学习领域,大多数算法需要处理向量形式的数据。那么,如何将文本数据转化为向量表示呢?这是我们接下来要探讨的核心问题。
2. 向量表示的类型
语言的向量表示大致可分为两种类型:
- 表征向量(Representational vectors) :这种向量表示不是从数据中学习得到的,而是通过描述文本在多个可人类解释的特征维度上来表示文本。
- 操作向量(Operational vectors) :反映由某种算法产生的数据的派生表示,通常是通过不可逆的计算生成数值向量,一般难以被人类解释。
3. 表征向量
表征向量通过在多个可人类解释的特征维度上描述文本来表示文本。以下是几种常见的表征向量形式:
- 字符向量 :最简单的形式是用字符表示单词。例如,10 维字符值向量: v e c t o r - - - - 。
- 荷兰语词法形态特征向量 :以荷兰语的小词形式为例,荷兰语使用小词后缀,如 hospitaal (小医院)变为 hospitaal+tje , woning (小房子)变为 wonin+kje 。可以用一个 12 维的特征向量加上一个类标签来表示,如 +,h,O,s,-,p,i,=,-,t,a,l,T ,其中
超级会员免费看
订阅专栏 解锁全文
1316

被折叠的 条评论
为什么被折叠?



