1 简介
本文根据2003年《A simple Algorithm for identifying abbreviation definitions in Biomedical Text》-一个简单的识别生物医学缩写的算法,翻译总结的。作者是ARIEL S. SCHWARTZ 和MARTI A. HEARST。
生物医学文献的规模和增长速度致使产生了大量的缩写,研究者面临着要不断更新知道这些缩写的挑战。
如 methyl methanesulfonate sulfate (MMS)、Gcn5-related N-acetyltransferase (GNAT)等缩写。
该方法SCHWARTZ- HEARST是基于规则的方法,非机器学习方法。
2 本文的方法
2.1 识别短语(short form)和长语(long form)
第一步就是提取<短语,长语>. 我们采用短语是紧挨着括号的,如下面两种情况:

2.2 识别正确的长语
第一步提取出<短语,长语>后,第二步就是准确识别在短语周围的长语。我们采用的方法是从短语的结尾处开始,从右向左移动,找到长语可以匹配短语。在短语中的每个字母必须在长语中存在,短语中字母出现的顺序和长语中出现的顺序一样。
如<HSF, Heat shock transcription factor>。 算法首先从HSF的F开始,从右往左,找到长语中factor的f。接着找S,找到transcription 的s;接着找H,找到Heat的H,而不是shock的h,因为要求短语的第一个字母也必须是长语中单词的首字母。如上,虽然s没有找到shock的s,而是transcription 的s,但我们还是找到了正确长语Heat shock transcription factor。
本文介绍了2003年Schwartz-Hearst算法,用于识别生物医学文本中的缩写及其定义,通过规则匹配和短语长语对应来简化缩写管理。方法包括短语和长语的提取,以及按顺序从右向左匹配长语。
1972

被折叠的 条评论
为什么被折叠?



