SCHWARTZ- HEARST算法-缩写短语识别

最新推荐文章于 2025-09-08 12:34:45 发布

翻译最新推荐文章于 2025-09-08 12:34:45 发布 · 414 阅读

·

2

·

算法专栏收录该内容

38 篇文章

订阅专栏

本文介绍了2003年Schwartz-Hearst算法，用于识别生物医学文本中的缩写及其定义，通过规则匹配和短语长语对应来简化缩写管理。方法包括短语和长语的提取，以及按顺序从右向左匹配长语。

1 简介

本文根据2003年《A simple Algorithm for identifying abbreviation definitions in Biomedical Text》-一个简单的识别生物医学缩写的算法，翻译总结的。作者是ARIEL S. SCHWARTZ 和MARTI A. HEARST。

生物医学文献的规模和增长速度致使产生了大量的缩写，研究者面临着要不断更新知道这些缩写的挑战。

如 methyl methanesulfonate sulfate (MMS)、Gcn5-related N-acetyltransferase (GNAT)等缩写。

该方法SCHWARTZ- HEARST是基于规则的方法，非机器学习方法。

2 本文的方法

2.1 识别短语（short form）和长语（long form）

第一步就是提取<短语,长语>. 我们采用短语是紧挨着括号的，如下面两种情况：
在这里插入图片描述

2.2 识别正确的长语

第一步提取出<短语,长语>后，第二步就是准确识别在短语周围的长语。我们采用的方法是从短语的结尾处开始，从右向左移动，找到长语可以匹配短语。在短语中的每个字母必须在长语中存在，短语中字母出现的顺序和长语中出现的顺序一样。

如<HSF, Heat shock transcription factor>。算法首先从HSF的F开始，从右往左，找到长语中factor的f。接着找S，找到transcription 的s；接着找H，找到Heat的H，而不是shock的h，因为要求短语的第一个字母也必须是长语中单词的首字母。如上，虽然s没有找到shock的s，而是transcription 的s，但我们还是找到了正确长语Heat shock transcription factor。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。