
NLP
波波虾遁地兽
关关难过关关过,事事难为事事为
展开
-
CRF模型——打通crf模型的任督二脉(一)
CRF模型 是nlp领域的经典模型,也是公认的不好学习的模型(相比其他机器学习模型),我记得作为小蓝书《统计机器学习》的最后一章,当年看得那叫一个晦涩难懂呢2333333,反正看了一两遍是看不太懂,网上博客中 照抄小蓝书《统计机器学习》的最后一章的尤为多,也不能说不对,只是对我这种 小白,还是希望能有掰开算法细节和公式细节,甚至源代码细节来看的文章。网上关于CRF模型的各种文章,我觉得问题在...原创 2019-07-24 17:13:35 · 1641 阅读 · 0 评论 -
CRF模型——打通crf模型的任督二脉(二)
接着上一篇的讲到的MEMM的问题来说,MEMM产生Label Bias的根源是什么,这是因为MEMM的状态转移概率的计算方式,为了获得转移概率,它每一步的状态转移都会进行归一化,从而导致问题的产生。CRF认清了问题的根源,只要不要在每一步状态转移进行归一化,而在全局进行归一化 就能一下子化解了MEMM产生的Label Bias标注偏好这个大问题。p(s⃗∣x⃗)=∏i=0np(si∣si−...原创 2019-07-24 17:13:49 · 396 阅读 · 0 评论 -
NLP学习路径
NLP学习路径:Word2vec->Lstm->seq2seq->attention->ELMo->openAIgpt->bertWord2vec:Lstm:seq2seq:attention:ELMo:openAIgpt:bert:原创 2019-01-15 15:54:48 · 1287 阅读 · 1 评论 -
tf-idf使用
一:有很多不同的数学公式可以用来计算TF-IDF。这边的例子以上述的数学公式来计算。词频 (TF) 是一词语出现的次数除以该文件的总词语数。假如一篇文件的总词语数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文件中的词频就是3/100=0.03。一个计算文件频率 (DF) 的方法是测定有多少份文件出现过“母牛”一词,然后除以文件集里包含的文件总数。所以,如果“母牛”一词在1,000份文...原创 2019-01-22 09:47:27 · 759 阅读 · 0 评论