- 博客(2)
- 收藏
- 关注
原创 基于笔画序列的中文字向量模型设计与研究
一 背景介绍数据表示是机器学习领域的基础问题。在机器学习任务中,第一步即输入样本数字化。不同于声音、图像、视频等数字信号,自然语言具有先天的高度结构化、抽象化的特点。因此自然语言任务的首要任务便是将语言文字数字化。随着技术的发展,语言文字的表征方式不断进步。从最初始的one-hot到如今的分布式表示,词向量包含的信息愈加的丰富。现有的统计模型对于未登录词、低频词依然无法有效的表征。中文词向量研究受...
2018-05-28 12:31:39
925
原创 词向量模型扩展
1、词向量介绍在自然语言处理领域,数据的表征是最基础的技术。初始为每个单词或者数字赋值id作为标识;到one-hot方式,将用一个词表大小的向量表示,有且仅有一个位置为1,其余为0,即下标index等同于id,如:词袋模型(BOW bag of words);再到如今的分布式表示,采用一个k维的向量,每一个维度都是一个double(float)类型的数字,如:LDA、word2vec。。。词向量的...
2017-12-14 12:38:21
2255
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人