
NLP
Walter_Silva
这个作者很懒,什么都没留下…
展开
-
NLP到word2vec实战班视频截图3---Word2vec实战和kaggle案例分析
是用全量数据训练还是采用领域内的样本(数量足够大的话),领域内的更有效语料处理和模型构建标点去不去掉要看不同场合针对one-hot的特征,树模型其实不太合适一句话中每个词都对应一个N维的向量,这句话的向量就是各个词向量的average。但这种方式比较粗暴,结合tfidf借助外部的语料判断哪些词更重要也许效果会好些,对重要的词赋予更重要的权重。LSTM效果会比SV...原创 2018-11-24 10:35:50 · 504 阅读 · 0 评论 -
NLP到word2vec实战班视频截图2---Word2vec理论基础
视频地址:https://www.bilibili.com/video/av27083004/?p=2老师的blog地址:https://www.zybuluo.com/hanxiaoyang/note/472184词袋模型即第一项中文档向量表示为直接将各词的向量直接加和TDIDF也是词袋模型的一种表示法gram:元language mode...原创 2018-11-22 23:41:45 · 595 阅读 · 0 评论 -
NLP到word2vec实战班视频截图1----NLP理论基础
视频地址:https://www.bilibili.com/video/av27083004/?p=1对于社交语言一类的,表情符之类的要通过正则匹配把它们筛出来,具体处理如下图NLP:在feed进模型前要做大量的预处理,下面重点介绍存在的问题(在英文中这个问题比较明显,在中文中可以忽略)解决方法实现停用词(设置停用词的话可能会破坏...原创 2018-11-22 17:47:48 · 433 阅读 · 0 评论 -
自然语言处理word2vec的视频笔记-理论篇
https://www.bilibili.com/video/av26923188?p=2n=1的情况举例词典的大小是指单词的个数之前一直执着于一个词怎么样,其实nlp是关注整个上下文,也就是概率空间分布,联系到了数据挖掘、机器学习的本质,都是概率分布。如下图,英文中1,2,3,4,5和西班牙语的概率一致,这也是机器同翻的基础输入层的词向量可以随机初始化,在...原创 2018-11-18 19:42:06 · 492 阅读 · 0 评论 -
NLP到word2vec实战班视频截图4---从Word2vec到fasttext
视频地址:https://www.bilibili.com/video/av27083004/?p=4 对于长句子,RNN就显得力不从心,LSTM应运而生LSTM记忆的时间比RNN更长第二步中的两步结果取XOR异或案例:1、下一个字母是什么2、下一个单词是什么3、下一句话是什么4、下一个图片/音符是什么...原创 2018-11-24 16:21:36 · 490 阅读 · 0 评论 -
NLP相关的资料--持续更新
一个CNN,Fastetxt不错的介绍 http://www.52nlp.cn/tag/fasttext一个kaggle的案例:https://zhuanlan.zhihu.com/p/51675979搜狗的词库:https://pinyin.sogou.com/dict/cate/index/390 http://tools.bugscaner...原创 2018-12-19 23:22:16 · 292 阅读 · 0 评论