自然语言处理
William_Dong
Focus on machine learning, data mining, and text mining.
Research about text mining and social media analytics.
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Softmax分类器与cross entropy损失函数
1. Logistic regression模型我们先看下logistic regression模型及损失函数。有m个样本,,。Logistic regression采用的sigmoid函数是损失函数为:2. Softmax回归模型Softmax回归用于多类分类,假设有k个分类,则其中1/ 是为了归一化。3. 损失函数Logistic regression...原创 2019-10-18 11:29:50 · 394 阅读 · 0 评论 -
Apache OpenNLP使用
import java.io.*;import opennlp.tools.sentdetect.SentenceDetectorME;import opennlp.tools.sentdetect.SentenceModel;import opennlp.tools.tokenize.Tokenizer;import opennlp.tools.tokenize.TokenizerME原创 2015-04-14 10:13:24 · 4314 阅读 · 4 评论 -
Stanford CoreNLP使用
package dong.aid;import java.util.List;import java.util.Properties;import edu.stanford.nlp.dcoref.CorefCoreAnnotations.CorefChainAnnotation;import edu.stanford.nlp.ling.CoreAnnotations.LemmaAnno原创 2015-04-15 23:29:04 · 3478 阅读 · 0 评论 -
JgibbLDA输出结果说明与示例
JgibbLDA输出以下几个文件:.others文件存储LDA模型参数,如alpha、beta等。.phi文件存储topic-word分布,每一个元素是p(word|topic),每一行是一个主题,列内容为词语(应该是设定的top多少的词)。.theta文件存储document-topic分布,每一个元素是p(topic|document),每一行是一个文档,列内容是主题概率。原创 2015-12-13 21:14:23 · 3329 阅读 · 1 评论 -
LDA perplexity计算
LDA程序使用的是JgibbLDA,根据其输出的结果,一师兄给了如下的计算perplexity函数/** * @param tw_list是topic word矩阵(.phi文件)的每一行 * @param dt_list是document topic 矩阵(.theta)的每一行 * @param as_list是 .tassign文件的每一行 * */ public do原创 2015-12-13 21:54:34 · 7725 阅读 · 10 评论 -
Python RAKE 关键字提取
RAKE, 即Automatic keyword extraction。来自于M. W. Berry and J. Kogan (Eds.), Text Mining: Applications and Theory.unknown: John Wiley and Sons, Ltd.一书的第一章https://www.airpair.com/nlp/keyword-extraction-tuto...原创 2014-11-20 22:28:04 · 5996 阅读 · 1 评论
分享