汉字的字向量、词向量和表示学习(中文词向量)

中文词向量、字向量
将汉字拆分成偏旁部首训练词向量

现在有个想法是将汉字拆分成偏旁部首或者笔画,想法来自 fastText 的 n-gram 字符集。(注意:在 Chinese NLP 领域, 应该默认以 word 为词, character 为字, 本文也是如此. 以后如无意外, 不再赘述。)

fastText:2016年 facebook 的论文
Enriching Word Vectors with Subword Information

cw2vec: 阿里
Learning Chinese Word Embeddings with Stroke n-gram Information
AAAI 2018高分录用的一篇中文词向量论文,出自蚂蚁金服人工智能部。

Chinese Word Vectors:目前最全的中文预训练词向量集合
https://www.jiqizhixin.com/articles/2018-05-15-10

自然语言处理算法之cw2vec理论及其实现(基于汉字笔画)
https://blog.youkuaiyun.com/HHTNAN/article/details/81807680

Unicode汉字笔画顺序表
UNICODE汉字笔顺表,共2万多个汉字,最多的有四十多划。
https://download.youkuaiyun.com/download/bao110908/363125

搜“笔画拆拆”
https://bbs.youkuaiyun.com/topics/380220799

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值