
NLP
kz852456
这个作者很懒,什么都没留下…
展开
-
词性标注规范
中文领域中尚无统一的标注标准,较为主流的是北大的词性标注集和宾州词性标注集。北大标注集:转载 2019-04-01 20:26:56 · 824 阅读 · 0 评论 -
CRF++命令
训练示例:crf_learn -f 4 -p 8 -c 3 template ./data/train.txt model-f,-freq=INT使用属性的次数不少于INT(默认为1)-m,-maxiter=INT 设置INT为LBFGS的最大迭代次数(默认10k)-c,-cost=FLOAT设置FLOAT为代价参数,过大会过拟合(默认1.0)-e,-eta=FLOAT设置终止标准FL...转载 2019-04-01 20:52:28 · 414 阅读 · 0 评论 -
中文分词技术
第三章 中文分词技术3.1中文分词简介中文分词的主要困难在于分词歧义,此外,像未登录词、分词粒度粗细等都是影响分词效果的重要因素。中文分词方法可主要归纳为“规则分析”、“统计分词”和“混合分词(规则+统计)”三个主要流派。规则分词是最早兴起的方法,主要通过人工设立词库,按照一定方式进行匹配切分,其实现简单高效,但对新词很难进行处理。随后统计机器学习技术的兴起,应用于分词任务后,就有了统计分词...转载 2019-04-12 09:20:28 · 441 阅读 · 0 评论