笔记-2002-Combining Classifiers for Chinese Word Segmentation

alicexc++

于 2012-11-06 17:46:46 发布

阅读量950

点赞数

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/xiuchixc/article/details/8153974

版权

NLP 专栏收录该内容

24 篇文章

订阅专栏

Combining Classifiers for Chinese Word Segmentation

作者：Nianwen Xue,Susan P. Converse
单位：Institute for Research in Cognitive Science ；University of Pennsylvania
出处：Proceeding SIGHAN '02 Proceedings of the first SIGHAN workshop on Chinese language processing - Volume 18 Association for Computational Linguistics Stroudsburg, PA, USA ©2002

主要内容：用最大熵解决中文分词问题，抛砖引玉

引言，Introduction
模型，
1为什么用tag解决，怎么tag
2 ME模型
3 ME有标记偏置问题，Transformation-Based Learning去解决
实验
3个实验的介绍
评价及结果分析
讨论
使用最大熵工具注意几点，
1 回车换行只有10 没有13
2 测试语料不能有空行，可以对结果再行处理
3 测试语料如果第一行是测试答案，则输出一个“标记”准确率，并不是P、R、F1
4 迭代次数可以显示对训练语料的拟合程度，Xue的这篇论文拟合程度至少是0.9755

博客等级

码龄16年

49
原创

6
点赞

6
收藏

22
粉丝

关注

私信

热门文章

分类专栏

NLP 24篇
Voice 3篇
CODE 24篇
英语 1篇
生活 1篇

最新评论

SIGHAN2005分词baseline的perl程序FMM
weixin_60980116: 请问运行之后报错是什么原因呢？ Oops: shouldn't be here: 1512 Use of uninitialized value $1 in concatenation (.) or string at ./tests/icwb2-data/scripts/mwseg.pl line 84, <> line 1513.
把普通语料整理成微软格式的CRF语料
Q`seven: E_PUNCTION这里出现：E0008缺少右引号；的错误，这怎么搞
SIGHAN评测回顾-1-(2003-2005)
moll_77: 您好，我最近在做人名消歧相关的研究，但是没有合适的数据集，能否提供一下文章中提到的sighan task2 的数据集，万分感谢。747242079@qq.com
Twitter-LDA （只是为了mark）
戴夫的平底锅: 楼主你好请问你这个代码跑通了吗最近在研究这方面方不方便交流一下？？(*^__^*)
Kaldi cvte test
qq_39935376 回复 qq_25688861: 你好，请问cvte在线解码跑通了吗？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。