计算语言学课程笔记(二)

本文介绍了中文分词的基础知识,包括词的定义、分词规范、分词动机及基本方法。重点讨论了分词的歧义问题和未登录词识别,提出了基于记忆、规则和统计的歧义消解策略,并指出未登录词识别的挑战。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本周的内容主题是现代汉语词切分研究(也就是我们常说的中文分词,word segmentation)
本部分比较基础,但是比较重要。
-------------------------------------------------------------------------------------------------------------------
既然说到了分词,那么就要下一个定义:在中文里,什么是词?
词是由语素构成的、能够独立运用的最小的语言单位。 
词就是说话的时侯表示思想中一个观念的词。缺乏操作标准。 
汉语中语素、词和词组的界线模糊。 
 象牙 是词? 兔牙? 
 吃饭 吃鱼 
 毁坏 打坏 

# 汉语分词规范
《信息处理用汉语分词规范》GB/T13715-92,中国标准出版社,1993 
 分词单位:汉语信息处理使用的、具有确定的语义或语法功能的基本单位。包括本规范的规则限定的词和词组。 
 规范按词类分别给出了各类分词单位的定义,并给出例子。 
 规范中多处使用了“结合紧密、使用稳定”的表述 
 不但有规范 还要有词表(还要有语料) 
 什么是切分单位和应用有关 
 工程观点[3] 



# 定义,什么是中文分词(Chinese word segmentation)?
     -  通过计算机把组成汉语文本的字串自动转换为词串的过程被称为自动切分

E.g:  
     - 鱼在长江中游 
     - 鱼/在/长江/中/游

特点: 汉语和英语等印欧语言不通,汉语的词与词之间没有明显的空格。而在英语当中,也不是完全没有切分的问题
E.g: 
1. 缩写词  N.A.T.O. i.e. m.p.h Mr. AT&T
2. 连写形式 I'm He'd don't 
3. 数字 日期 编号  D-4 T-1-A B.1.2 
4. 带字符的词 text-to-speech text-based e-mail co-operate       

通常而言,英语的切分问题被称为tokenization,相对于中文而言比较容易

# 中文分词的动机(motivation):
- Text-To-Speech 或语音合成,发音/声调的变音/音调
- 信息检索
- 词频统计
XX区抓住了全球信息化的机遇,不断加大信息化建设投资, 极大地推进了信息化建设和发展。在行政系统内部、社会管理和公共事业领域、产 业发展、社区管理等方面的信息化全面发展,取得了巨大的成就,并使信息产业成 为全区的支柱产业。 五年来,在区委、区政府的领导和重视下,全区形成了“以‘三个代表’重要 思想为指导,全面落实科学发展观,以信息化推动工业化、城市化、现代化,坚持 以规划为指导、以应用为核心、以需求为导向、以服务为宗旨,政府先行,市场主 导,整合资源,加强应用”的信息化发展思路。为建设“和谐XX、效益XX、平安XX” 提供技术保障。 同时,XX区的信息化发展也存在如下方而的问题:第一,缺乏带动全局的“龙 头”应用。虽然在“十五”期间启动了“XX区政府办公信息网”、“XX区综合信息 系统”等一批公共电子政务系统,对带动部门信息技术应用,推进政务信息化发挥 了重要作用。但总体上尚缺乏带动政务全局,并与社会互动的“龙头”应用,如行 政许可并联审批系统、城市安全联动指挥系统等。第,缺乏关系全局的应用基础 平台。“十五”期间重点建设了网络基础设备,为新时期的发展奠定了重要基础。 但与应用紧密相关的“平台”基础设施,如数据(交换)中心、电子政务平台、电 子商务平台等尚未建成。第三,信息资源开发、共享力度不足。目前,XX信息资源 开发利用的基本特征是以部门内部应用为主,部门间的信息资源开发与共享相当贫 乏。第四,信息化管理力度有待加强,通信管道等信息行业管理缺乏配套的管理手 段,管理力度有待加强。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值