一、学习目标
1.了解汉语分词的要点和汉语分词方法
2.学习命名实体识别的一些规则
3.了解子词压缩和词性标注的思想
二、分词和词性标注任务概述
1.分词的重要性:

在本章中,我们主要关注中文的分词任务。
2.词性标注的重要性:

在中文NLP任务中,在模型处理的数据层面,基于词建立的模型性能优于以字和子词建立的模型。
在具体任务中,词性在文本分类、情感分析、自动文摘等任务中具有重要的作用。
三、汉语分词要点
1.汉语分词的问题:
(1)什么是词?

对于什么是词,我们中国人都不太好区分,所以这也大大加深分词的难度。
(2)交集型歧义。即一个句子中相邻的字可以相互组合成词。如:

为了定义这种现象,我们用交集串来设定:


(3)组合型歧义

(4)未登录词/集外词的出现:

2.汉语分词的原则
(1)基本原则:比较硬性、理论上更优</

本文介绍了汉语分词的关键要点,包括分词和词性标注的重要性,各种分词方法(基于词典、语言模型、字构词等)以及命名实体识别的规则。还讨论了子词压缩和词性标注面临的挑战及解决方案。
最低0.47元/天 解锁文章
829

被折叠的 条评论
为什么被折叠?



