15、自然语言处理中的搭配发现与分析

自然语言处理中的搭配发现与分析

1. 词性标注集与语料库相关

在自然语言处理中,词性标注集存在一些问题。例如,一些词的分布与常规副词差异很大,但这些差异在标注集中并未体现。人们常根据直觉对标注集进行修改,像Charniak(1996)就质疑了宾州标注集将助动词与其他动词用相同标签标注的做法,因为助动词有独特的分布,他进而用“AUX”标签重新标注助动词。不过,对词性系统标注集进行此类修改的预测价值,并未得到系统评估。使用同一标注集进行预测和分类时,这种修改是把双刃剑:拆分标签以捕捉有用差异可提升预测信息,但会让分类任务更复杂。所以,标签集大小与自动标注器性能之间不一定存在简单关系。

常见的语料库有:
- 布朗语料库 :由超过一百万字的1961年美国书面英语组成,由W. Nelson Francis和Henry Kucera编译并记录。
- LOB语料库 :在20世纪70年代作为布朗语料库的英式英语版本构建。

识别专有名词是信息提取中的重要问题。Susanne语料库使用了精心设计且经过实验测试的分词规则。关于标点符号的重要性,也有相关的语言学视角探讨。在语言学中,对于什么算作一个词,有基础讨论和更深入的探讨。连字符使用的例子多来自道琼斯新闻专线等。

此外,有许多形态分析系统,Kay和[未提及全名](1993)提出了一种知识贫乏情况下有效的词干提取方法。Sproat(1992)讨论了形态学给自然语言处理带来的问题。COCOA格式用于一些语料库和相关软件。SGML和XML在多本著作中有描述,网上也有相关信息。文本编码倡议(TEI)有相关指南,近期还有对其进行简化的发展,以及

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值