术语提取:方法、挑战与应用
1. 术语的定义与相关概念
术语是指在特定应用或知识领域中,以语言形式表达概念的单词或词组序列,通常用于科学或技术领域。例如,在语言学领域,“头韵(alliteration)”和“回指(anaphora)”是术语;在生物学领域,“细胞周期(cell cycle)”和“连锁图谱(linkage map)”是术语。
术语与多词表达式、搭配和关键短语等自然语言处理概念有相似之处,但也存在区别:
- 多词表达式 :由两个或更多单词组成,对应某种约定俗成的表达方式。例如,“浓茶(strong tea)”“鱼条(fish finger)”等名词短语,“组成(make up)”“分手(break up)”等短语动词,以及“富有而强大(rich and powerful)”等固定短语。多词术语是多词表达式的一个子集,它们由频繁共现的成分组成,通常具有非组合性、不可替代性和不可修改性。
- 搭配 :是指在文本或语音中比随机情况更频繁共现的词组,如“纽约(New York)”“副总裁(vice president)”“证券交易所(stock exchange)”。搭配与多词表达式非常相似,但搭配的定义更侧重于共现频率的增加,而多词表达式的定义更侧重于习语性的不同程度。多词术语通常是特定领域的搭配。
- 关键短语 :是代表文档核心概念或对文档进行总结的单词或短语。因此,单词关键短语是术语,多词关键短语可能是多词术语或搭配。
术语与多词表达式和搭配的主要区别在于,术语可以是单个单词,而后者总是多词。此外,通过组合性的概念可以更清晰地区
超级会员免费看
订阅专栏 解锁全文
24万+

被折叠的 条评论
为什么被折叠?



