自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 基于笔画序列的中文字向量模型设计与研究

一 背景介绍数据表示是机器学习领域的基础问题。在机器学习任务中,第一步即输入样本数字化。不同于声音、图像、视频等数字信号,自然语言具有先天的高度结构化、抽象化的特点。因此自然语言任务的首要任务便是将语言文字数字化。随着技术的发展,语言文字的表征方式不断进步。从最初始的one-hot到如今的分布式表示,词向量包含的信息愈加的丰富。现有的统计模型对于未登录词、低频词依然无法有效的表征。中文词向量研究受...

2018-05-28 12:31:39 925

原创 词向量模型扩展

1、词向量介绍在自然语言处理领域,数据的表征是最基础的技术。初始为每个单词或者数字赋值id作为标识;到one-hot方式,将用一个词表大小的向量表示,有且仅有一个位置为1,其余为0,即下标index等同于id,如:词袋模型(BOW bag of words);再到如今的分布式表示,采用一个k维的向量,每一个维度都是一个double(float)类型的数字,如:LDA、word2vec。。。词向量的...

2017-12-14 12:38:21 2255

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除