
贪心学院
贪心学院所介绍的知识
拙小拙
这个作者很懒,什么都没留下…
展开
-
贪心学院—自然语言处理—词向量的总结
词向量的总结个人整理笔记,方便复习,若侵权,请联系。附贪心学院课程链接: https://www.greedyai.com/courseinfor/105转载 2020-07-03 10:00:50 · 319 阅读 · 0 评论 -
贪心学院—自然语言处理—字符向量
字符向量字符向量理解适用情况字符向量理解字符向量的出现是为了解决在NLP中未登录词(out of vocabulary)。subword主要思想是将已有的分词自定义的字符大小将一个分词再细分为几个字符,将一个词向量转换为该分词字符向量的表示。深入理解NLP Subword算法:BPE、WordPiece、ULM上图设置的字符大小为4(词向量中4个字符表示一行),而一个词的词向量是由它所分的字符向量表示。再通过skip-gram模型求其概率。适用情况具有某些形态特征的语言(如英语的ing/转载 2020-07-03 09:59:24 · 834 阅读 · 0 评论 -
贪心学院—自然语言处理—评估词向量
使用上述方法替代目标函数后Negative Sampling:正样本(文本中出现的组合)是一定的,负样本(文本中为出现的组合)较多,该方法的思想在于:计算时不使用全部的负样本而是随机采样,采样个数可自己设置。下图为采样个数设为2的情况:在确定好样本后,进行梯度下降更新。Skip-Gram model with SGD (skip-gram模型使用梯度下降的大致过程)评估词向量:TSNE对训练得到的词向量降维到二维空间进行观察;与已有的数据进行相似度对比;类比(analogy):wom转载 2020-07-02 23:58:45 · 807 阅读 · 0 评论 -
贪心学院—自然语言处理—分布式向量表示
分布式向量分布式Word2Vec分布式相当于不同分词对结果的贡献程度。Word2Vec[NLP] 秒懂词向量Word2vec的本质重点:当模型训练完后,最后得到的、是神经网络的权重,比如现在输入一个 x 的 one-hot encoder: [1,0,0,…,0],对应输入的某个分词,则在输入层到隐含层的权重里,只有对应 1 这个位置的权重被激活,这些权重的个数,跟隐含层节点数是一致的,从而这些权重组成一个向量 V 来表示x,而因为每个分词的 one-hot encoder 里面 1 的位置是不同转载 2020-07-02 23:56:22 · 961 阅读 · 0 评论 -
贪心学院—自然语言处理—分词原理
分词原理前向最大匹配(forward-max matching)后向最大匹配(backward-max matching)维特比算法(viterbi algorithm)前向最大匹配(forward-max matching)根据自定义的max_length来对文本进行分词及判断。从前开始匹配。后向最大匹配(backward-max matching)从后开始匹配。缺点:未考虑语义信息效率基于max_length维特比算法(viterbi algorithm)百度百科解释。考虑语义,将转载 2020-07-02 22:29:29 · 500 阅读 · 0 评论 -
贪心学院—自然语言处理—基础介绍
基础介绍自然语言处理(natural language processing)NLP的维度NLP项目的实验流程自然语言处理(natural language processing)NLP=NLU(nature language understanding)+NLG(nature language generate)即自然语言处理是先理解自然语言,然后根据理解生成回复目前领域面临的问题:一词多义(ambiguity)NLP的维度由底层到高层的过程:声音:最底层的形式单词(morphology)转载 2020-07-02 16:11:11 · 520 阅读 · 0 评论 -
贪心学院—自然语言处理—向量表示
基础知识1. 文本向量的表示one-hot编码表示(向量长度=词典大小)Boolean Representation:未出现记为0,出现记为1.Count-based Representation:未出现记为0,出现记出现的次数.举例:TF-IDF表示TFIDF(w)=TF(d,w)∗IDF(w)TFIDF\left( w \right) =TF\left( d,w \right) *IDF\left( w \right) TFIDF(w)=TF(d,w)∗IDF(w)TF转载 2020-06-30 19:22:29 · 368 阅读 · 0 评论 -
贪心学院—自然语言处理—n元元组
假设:一个文档的分词w1w_1w1,w2w_2w2,w3w_3w3,…,wnw_nwn.unigram(一元元组):句子中每个分词都是独立的.将每个分词的概率直接相乘即可.p(w)=p(w1)∗p(w2)∗p(w3)...∗p(wn)p\left( w \right) =p\left( w_1 \right) *p\left( w_2 \right) *p\left( w_3 \right) ...*p\left( w_n \right)p(w)=p(w1)∗p(w2)∗p(w3).转载 2020-06-30 19:15:17 · 618 阅读 · 0 评论