利用归一化谷歌距离发现化学材料别名
1. 引言
化学物质名称的复杂性使得仅用几个关键词很难完整描述它们。对于没有专业化学知识的普通用户来说,当遇到不熟悉的化学物质名称时,搜索引擎或在线化学词典虽能提供大量信息,但化学物质的科学名称大多是英文翻译而来,同一化学物质往往有多个别名。不同行业,如制药行业,会用不同的别名来称呼化学物质,像化学名称、通用名称和商品名称等。例如,阿司匹林的化学名称是邻乙酰水杨酸,也常被称为万灵药。
美国化学学会的化学文摘社(CAS)为文献中出现的每种物质分配了唯一的识别号,即CAS登记号,以避免化学物质别名带来的麻烦。然而,互联网上主要使用英文名称,对应的中文名称缺失,普通用户也不知道可以通过CAS号检索名称。
根据Chen和Lin提出的归一化谷歌距离(NGD),谷歌搜索引擎可作为云数据库。用户输入关键词后,利用返回的搜索结果数量来计算两个关键词之间的关联度。2005年,谷歌搜索引擎的网页数量超过800亿,庞大的数据量能提供更准确的结果,且返回速度相当快。
本研究的主要目标是让普通用户能够使用化学物质的别名找到正确名称。为此,提出了“简单方法”和“分类附加法”两种方法,基于用户输入的关键词实时进行单字搜索,并在词中添加类别名称进行查询。获取搜索结果后,计算化学物质名称与其别名之间的NGD,对结果进行排序,找到与用户输入关键词最相关的化学物质名称,并计算正确答案的平均距离,最后比较找出最佳方法。
研究框架分为五个部分:
1. 引言 :解释研究动机和目标。
2. 文献综述 :介绍近年来关于NGD和文本挖掘的文献。
3.
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



