自然语言处理_William_Dong的博客-优快云博客

自然语言处理

关注

关注数：文章数：6 文章阅读量：25236 文章收藏量：22

作者: William_Dong

Focus on machine learning, data mining, and text mining. Research about text mining and social media analytics.

展开

专栏收录文章

Softmax分类器与cross entropy损失函数

1. Logistic regression模型我们先看下logistic regression模型及损失函数。有m个样本，，。Logistic regression采用的sigmoid函数是损失函数为：2. Softmax回归模型Softmax回归用于多类分类，假设有k个分类，则其中1/ 是为了归一化。3. 损失函数Logistic regression...

原创 2019-10-18 11:29:50 · 394 阅读 · 0 评论
Apache OpenNLP使用

import java.io.*;import opennlp.tools.sentdetect.SentenceDetectorME;import opennlp.tools.sentdetect.SentenceModel;import opennlp.tools.tokenize.Tokenizer;import opennlp.tools.tokenize.TokenizerME

原创 2015-04-14 10:13:24 · 4314 阅读 · 4 评论
Stanford CoreNLP使用

package dong.aid;import java.util.List;import java.util.Properties;import edu.stanford.nlp.dcoref.CorefCoreAnnotations.CorefChainAnnotation;import edu.stanford.nlp.ling.CoreAnnotations.LemmaAnno

原创 2015-04-15 23:29:04 · 3478 阅读 · 0 评论
JgibbLDA输出结果说明与示例

JgibbLDA输出以下几个文件：.others文件存储LDA模型参数，如alpha、beta等。.phi文件存储topic-word分布，每一个元素是p(word|topic),每一行是一个主题，列内容为词语(应该是设定的top多少的词)。.theta文件存储document-topic分布，每一个元素是p(topic|document),每一行是一个文档，列内容是主题概率。

原创 2015-12-13 21:14:23 · 3329 阅读 · 1 评论
LDA perplexity计算

LDA程序使用的是JgibbLDA，根据其输出的结果，一师兄给了如下的计算perplexity函数/** * @param tw_list是topic word矩阵(.phi文件)的每一行 * @param dt_list是document topic 矩阵（.theta）的每一行 * @param as_list是 .tassign文件的每一行 * */ public do

原创 2015-12-13 21:54:34 · 7725 阅读 · 10 评论
Python RAKE 关键字提取

RAKE，即Automatic keyword extraction。来自于M. W. Berry and J. Kogan (Eds.), Text Mining: Applications and Theory.unknown: John Wiley and Sons, Ltd.一书的第一章https://www.airpair.com/nlp/keyword-extraction-tuto...

原创 2014-11-20 22:28:04 · 5996 阅读 · 1 评论

自然语言处理

作者: William_Dong

Softmax分类器与cross entropy损失函数

Apache OpenNLP使用

Stanford CoreNLP使用

JgibbLDA输出结果说明与示例

LDA perplexity计算

Python RAKE 关键字提取