
Nlp
tianya111cy
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
中文分词评价指标
准确率(Precision)和召回率(Recall) Precision = 正确切分出的词的数目/切分出的词的总数 Recall = 正确切分出的词的数目/应切分出的词的总数 综合性能指标F-measure Fβ = (β2 + 1)*Precision*Recall/(β2*Precision + Recall) β为权重因子,如果将准确率和召回率同等看待,取β = 1,就得到...原创 2011-11-15 12:44:31 · 1481 阅读 · 0 评论 -
未登录词
分类 1.复合词和派生词 2.略缩语(如“世博会(世界博览会)”、“奥运会(奥林匹克运动会)”) 3.专有名词(也称命名实体,子分类:人名、地名和机构名) 4.数字类复合词(数字和汉字构成,如日期、地址、时间等) 识别 1.新涌现的通用词或专业术语等可预期的未登录词 2.专有名词等不可预期的未登录词...原创 2011-11-15 14:56:17 · 437 阅读 · 0 评论 -
分词算法和模型
维特比算法(Viterbi) 隐马尔可夫模型(Hidden Markov model, HMM) 最大熵模型(Maximum Entropy, ME) 支持向量机(SVM) 线性链条件随机场模型(CRF) 最大间隔马尔可夫网络模型 遗传算法 N-gram模型 有监督机器学习 HMM属于产生式模型(基于联合概率分布),CRF和ME属于判别式模型(基于条件概率) ...原创 2011-11-15 15:56:24 · 285 阅读 · 0 评论 -
中文信息处理
中文分词 词性标注 命名实体识别 句法分析原创 2011-11-15 15:59:19 · 195 阅读 · 0 评论 -
关键词和关键句排名算法
关键词和关键句排名算法:加权无向图 the application of graphbased ranking algorithms to natural language texts consists of the following main steps: 1. Identify text units that best define the task at hand, and ad...原创 2011-12-02 14:11:39 · 213 阅读 · 0 评论 -
TF-IDF
http://baike.baidu.com/view/1228847.htm原创 2012-02-29 10:11:27 · 87 阅读 · 0 评论 -
ictclas4j bug总结
1.漏字 Eg: 林心如主演的倾世王妃 分词结果为:林如/nr 主演/v 的/u 倾/v 世/ng 王妃/n 漏掉了“心”字 解决办法:将PosTagger.java中personRecognize方法里的如下if语句直接注释掉 if (sn.getPos() < 4 && unknownDict.getFreq(sn.getWord(), sn.ge...原创 2012-09-05 09:55:13 · 135 阅读 · 0 评论 -
Data Mining Algorithms
K-means原创 2012-09-17 11:20:56 · 209 阅读 · 0 评论