自然语言处理(第9课 词语切分与词性标注)

本文介绍了汉语分词的关键要点,包括分词和词性标注的重要性,各种分词方法(基于词典、语言模型、字构词等)以及命名实体识别的规则。还讨论了子词压缩和词性标注面临的挑战及解决方案。

一、学习目标

1.了解汉语分词的要点和汉语分词方法

2.学习命名实体识别的一些规则

3.了解子词压缩和词性标注的思想

二、分词和词性标注任务概述

1.分词的重要性:

在本章中,我们主要关注中文的分词任务。

2.词性标注的重要性:

在中文NLP任务中,在模型处理的数据层面,基于词建立的模型性能优于以字和子词建立的模型。

在具体任务中,词性在文本分类、情感分析、自动文摘等任务中具有重要的作用。

三、汉语分词要点

1.汉语分词的问题:

(1)什么是词?

对于什么是词,我们中国人都不太好区分,所以这也大大加深分词的难度。

(2)交集型歧义。即一个句子中相邻的字可以相互组合成词。如:

为了定义这种现象,我们用交集串来设定:

(3)组合型歧义

(4)未登录词/集外词的出现:

2.汉语分词的原则

(1)基本原则:比较硬性、理论上更优</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值