ChineseEmbedding
Chinese Embedding collection incling token ,postag ,pinyin,dependency,word embedding.中文自然语言处理向量合集,包括字向量,拼音向量,词向量,词性向量,依存关系向量.共5种类型的向量.
项目地址:https://github.com/liuhuanyong
项目简介
目前不同于one-hot表示的稠密向量在常见的NLP任务中运用的越来越广,而目前开源的向量资源还比较单一,只有中文和其他语言的词向量.本项目想弥补这一缺陷.
本项目认为
1,NLP中的各种语言单元形态都可以进行向量表示.
2,稠密低维的向量较one-hot这种sparse向量更具备语义信息.
3,中文信息处理中可以进行词向量表示的语言单位包括:
- 字符(单个汉字)
- 词语(词或词组)
- 汉语拼音
- 汉语词性
- 汉语词语之间的依存关系
本项目要完成的任务
运用词向量建模方法,分别完成以上5种形态的词向量训练, 并检验效果.
训练语料
本项目将使用中文维基百科(zhiwiki)作为训练语料来源.
训练方法
- 基于skigram的方法
对字向量,拼音向量,词向量,词性向量采用此类方法,分别设定词向量的维度及其他超参数 - 基于上下文共现与PCA降维的方法
对依存向量采用此类方法
测试方法
本测试较为简单,直接使用语义最近的语言单元

ChineseEmbedding项目提供了中文自然语言处理的向量合集,包括字向量、拼音向量、词向量、词性向量和依存关系向量。利用词向量建模方法训练这5种形态的向量,并以中文维基百科为语料。测试方法简单直观,通过语义最近的单位检验效果。初步结果显示词和字向量表现良好,而依存关系向量揭示了语义结构特点。
最低0.47元/天 解锁文章
1024





