非农业和通用叙词表中的农业相关概念
在当今信息爆炸的时代,农业相关的信息不仅存在于专业的农业数据库中,还广泛分布在众多非农业和通用信息系统及数据库里。对这些不同系统中农业相关概念的研究,有助于我们更全面地获取农业知识,提升信息检索的效率。
1. 引言
农业科学领域在近四十年来主要依靠三个大型通用农业信息系统,即Agris(粮农组织)、Agricola(美国农业部国家农业图书馆)和CAB Abstracts(国际农业和生物科学中心),它们基于叙词表(主题词)提供高质量的索引服务。此外,还有专注于食品和营养的小型数据库FSTA,以及包含食品、营养、药用植物和动物健康等重要信息的Medline。
近年来,这三个农业数据库收集了越来越多各自独有的信息。CAB Abstracts被认为是最全面的数据库,但其访问权限仅限于订阅机构;Agricola免费且专注于美国国家农业图书馆编制的文献,提供许多全文文献的访问;Agris同样免费,它编译和索引了许多其他数据库可能未收录的非常规全文出版物,其多语言的Agrovoc叙词表已成为开放存档网络中重要的知识组织系统。部分农业词汇也正在被重塑为本体。
除了标准的书目信息系统,农业信息也越来越多地被组织到其他类型的数据库中,如用于教育目的的学习存储库。然而,农业科学是一个广泛的领域,涉及经济、社会、机械工程、教育等多个方面,相关信息分散在不同学科和信息服务中。此前虽有一些关于农业在非农业背景下的研究,但对农业和非农业数据库及叙词表的比较研究较少,尤其是生命科学领域之外的系统。因此,我们希望研究其他具有层次叙词表的书目系统,评估以“农业”和“农业的”为例的主要主题词的结构,以及基于这些术语的检索特点,为终端用户提供更有效的信息检索技术。
2. 材料与方法
2.1 信息系统概述
获取数据库和信息系统中最新的记录总数变得越来越困难,因为记录中包含了越来越多的非学术出版物。官方资料有时会省略记录数量信息,而只提供期刊标题和其他出版物的覆盖信息。许多信息系统专注于提供全文期刊的访问,包括报纸、杂志和新闻专线。
以下是各数据库的主题词原始名称及搜索语法:
| 数据库 | 主题词名称 | 搜索语法 |
| ---- | ---- | ---- |
| C-Eric | 描述符 | de=agricultur
|
| C-Lisa | 描述符 | de=agricultur
|
| C-SocAb | 描述符 | de=agricultur
|
| Eb-ASC | 主题术语 | SU agricultur
|
| Eb-Medl | 主题标题中的词 | MW agricultur
|
| Eb-PSC | 主题术语 | SU agricultur
|
| Ei-Comp | Ei受控术语 | agricultur
wn cv |
| Ei-Insp | Inspec受控术语 | agricultur
wn cv |
| O-PsyInf | 标题词 | agricultural.hw |
| P-ABInf | 主题标题 | SU(agriculture) |
各数据库及其叙词表的具体信息如下:
-
C-Eric - CSA Illumina ERIC - ERIC叙词表
:涵盖教育、学校和教学领域,有1085种期刊和许多非期刊资源,140万条记录(其中33万条为全文),时间跨度从1966年到2011年。叙词表包含6000个首选术语和4500个非首选术语。
-
C-Lisa - CSA Illumina - LISA - LISA叙词表
:主要涉及图书馆和信息科学领域,以期刊为主(440种),有35万条记录(1969 - 2011年)。叙词表总术语数超过6000个(具体数据不详)。
-
C-SocAb - CSA Illumina - Sociol. Abstracts - 社会学索引术语(SIT)
:涵盖社会学、社会和行为科学,包括1800种期刊、书籍、书籍章节、学位论文和会议论文等,100万条记录(1952 - 2011年)。叙词表有4088个首选术语(其中1456个为顶级术语)和2739个非首选术语。
-
Eb-ASC - Ebsco - Academic Search Complete - 主题术语(ST)
:是一个通用科学数据库,侧重于生命科学,也涉及社会科学和人文学科。有13200种期刊(其中8600种为全文)、会议论文、书籍和报告等,时间跨度从1887年到2011年。叙词表包含196000个首选术语和204000个非首选术语。
-
Eb-Medl - Ebsco - Medline - MeSH(医学主题词)
:涵盖所有生物医学领域(包括兽医学),主要是期刊(4800种),有1800万条记录(1946 - 2011年)。MeSH叙词表有26142个首选术语和177000个非首选(入口)术语。
-
Eb-PSC - Ebsco - Political Science Complete - 政治学叙词表
:涉及政治学、人道主义问题、法律和立法等领域。有2900种期刊(其中530种为全文)、会议论文、书籍(340本全文参考书籍),时间跨度从1895年到2011年。叙词表包含7366个首选术语和10175个非首选术语。
-
Ei-Comp - Ei(Engineering Village) - Compendex - Ei叙词表
:涵盖化学工程、土木工程、电气工程、机械工程、采矿工程等领域。有5600种期刊和行业杂志、会议论文,1200万条记录(1970 - 2011年)加上170万条摘要记录(1884 - 1969年)。叙词表包含10200个首选术语和9420个非首选术语。
-
Ei-Insp - Ei(Engineering Village) - Inspec - Inspec叙词表
:涉及物理学、电气工程与电子学、计算机与控制、信息技术、机械与生产工程等领域。有4000种期刊、会议论文、书籍、报告和学位论文等,1100万条记录(1969 - 2011年)。叙词表包含9573个首选术语和8826个非首选术语。
-
O-PsyInf - OVID - PsycINFO - 心理学索引术语叙词表
:涵盖心理学及相关学科,有2460种期刊、书籍和书籍章节(占数据库的11%),300万条记录(1880 - 2011年,部分记录可追溯到17世纪)。叙词表包含5613个首选术语和2609个非首选术语。
-
P-ABInf - ProQuest - ABI/Inform Global - ProQuest叙词表
:涉及商业、经济、管理、营销等领域。包含报纸、行业期刊、学术期刊、杂志(3500种,其中2500种为全文)、新闻专线、报告、学位论文和会议论文等,时间跨度从1923年到2011年。叙词表包含11000个首选术语和5600个非首选术语。
2.2 叙词表的特点
不同平台的叙词表具有一些共同特征,但最重要的区别在于短语索引和单词索引。在短语索引搜索模式下,如“农业经济学”不会被“农业”或“经济学”检索到。为了统一搜索结果的比较,我们在分析中始终采用“单词索引”。单词索引有不同的名称,如“旋转索引”“术语包含”或“置换索引”,在一些叙词表中,置换索引只显示首选术语,而在其他叙词表中也会显示非首选术语。并非所有叙词表都提供自动“展开”术语的功能。文中将使用UF(Used For)、BT(Broader Term)、NT(Narrower Term)、RT(Related Term)来表示相关概念。
以下是不同平台叙词表的具体特点:
-
CSA Illumina叙词表
-
字母列表
:列出所有首选和非首选术语(以特定字母开头),无关系指示。
-
层次结构
:列出具有关系的首选术语,需使用完整的主题词。如“农业”只能检索到“农业”标题,“替代农业”和“农业的”无法检索到,必须输入完整标题,如“农业经济学”。
-
旋转索引
:列出包含特定单词的所有首选和非首选术语,但不包括该术语的BT或NT中出现的情况,标题术语下方会显示RT。术语后的“[+]”表示包含更多狭义术语。“展开”功能可在数据库搜索中包含所有狭义术语。
-
Ebsco叙词表
-
术语以……开头
:按字母顺序列出首选和非首选术语。
-
术语包含
:列出所有首选和非首选术语,包括农业出现在注释/范围说明、BT、UF中的情况,但不包括出现在RT或NT中的情况。
-
相关性排序
:与“术语包含”功能类似,但还会检索与“农业”相关的其他术语。“展开”功能可在数据库搜索中包含所有狭义术语。Ebsco MeSH还有一些额外功能,如术语前的“[+]”表示有更多NT,还可将搜索限制为主要主题。
-
Ei - Engineering Village叙词表
-
搜索
:列出首选术语,包括农业出现在BT、NT、RT和UF中的情况(UF用斜体表示)。
-
精确术语
:只检索精确短语,如“农产品”,而不是“农业”。
-
浏览
:按字母顺序列出所有首选和非首选术语。要进行展开搜索,需手动选择叙词表中的一级狭义术语。
-
OVID叙词表
-
叙词表
:按字母顺序列出所有首选和非首选术语,“工人”不会检索到“农业工人”,但会检索到“人员(Used For工人)”。
-
置换索引
:列出所有首选和非首选术语的单词索引。
-
范围说明
:按短语索引,只返回具有范围说明的精确标题或非描述符。“工人”会检索到首选术语“人员”,但不会检索到“农业工人”。“展开”功能可在数据库搜索中包含所有狭义术语。
-
ABI/Inform Global(ProQuest)叙词表
-
包含单词
:列出“农业”作为描述符一部分的首选和非首选术语的置换列表。
-
以……开头
:按字母顺序列出首选和非首选术语。要进行展开搜索,需手动选择叙词表中的一级狭义术语。
3. 结果与讨论
3.1 主要主题词“农业”的树状结构
不同叙词表中“农业”主题词的树状结构差异很大,其BT、NT、RT和UF各不相同。例如,C - Eric有11个UF,而Ei - Insp和P - ABInf没有UF;BT从“技术”到“食品工业”和“工业艺术”不等;NT的差异最为明显,Ei - Insp只有1个NT,而Eb - ASC有多达106个NT;Eb - Medl没有RT,而Eb - ASC和C - SocAb都有24个RT,但它们共享的RT只有“农业社会”和“农业技术”。
以下是各叙词表中“农业”主题词的树状结构及相关术语数量:
| 数据库 | UF | BT1 | NT1 | RT |
| ---- | ---- | ---- | ---- | ---- |
| C - Eric | 11:agcl safety, agcl science等 | 1:technology | 4:agronomy, animal husbandry等 | 19:agribusiness, agcl colleges等 |
| C - Lisa | 1:farming | 1:food industry | 6:agcl economics, agcl engineering等 | 1:farmers |
| C - SocAb | 2:agronomy/agronomists, farming | 0 | 2:animal husbandry, part time farming | 24:agrarian societies, agrarian structures等 |
| Eb - ASC | 2:farming, husbandry | 2:industrial arts, life sciences | 106:acclimatization (plants), aerial photography in agriculture等 | 24:agrarian societies, agcl colleges等 |
| Eb - Medl | 2:agcl development, agcl workers | 1:’technology, industry, and agriculture’ | 9:agcl irrigation, animal husbandry等 | 0 |
| Ei - Comp | 2:agcl applications, limestone–agcl applications | 1:industry | 8:agcl products [11], agronomy等 | 14:agcl chemicals, agcl engineering等 |
| Ei - Insp | 0 | 1:farming | 1:irrigation | 19:agcl engineering, agcl machinery等 |
| P - ABInf | 0 | 0 | 17:agribusiness, agcl banking等 | 21:agcl commodities, agcl education等 |
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A(C - Eric):::process --> B(UF: 11):::process
A --> C(BT1: 1):::process
A --> D(NT1: 4):::process
A --> E(RT: 19):::process
F(C - Lisa):::process --> G(UF: 1):::process
F --> H(BT1: 1):::process
F --> I(NT1: 6):::process
F --> J(RT: 1):::process
K(C - SocAb):::process --> L(UF: 2):::process
K --> M(BT: 0):::process
K --> N(NT1: 2):::process
K --> O(RT: 24):::process
P(Eb - ASC):::process --> Q(UF: 2):::process
P --> R(BT1: 2):::process
P --> S(NT1: 106):::process
P --> T(RT: 24):::process
U(Eb - Medl):::process --> V(UF: 2):::process
U --> W(BT1: 1):::process
U --> X(NT1: 9):::process
U --> Y(RT: 0):::process
Z(Ei - Comp):::process --> AA(UF: 2):::process
Z --> AB(BT1: 1):::process
Z --> AC(NT1: 8):::process
Z --> AD(RT: 14):::process
AE(Ei - Insp):::process --> AF(UF: 0):::process
AE --> AG(BT1: 1):::process
AE --> AH(NT1: 1):::process
AE --> AI(RT: 19):::process
AJ(P - ABInf):::process --> AK(UF: 0):::process
AJ --> AL(BT: 0):::process
AJ --> AM(NT: 17):::process
AJ --> AN(RT: 21):::process
通过对这些数据的分析,我们可以更清晰地了解不同叙词表中“农业”主题词的结构特点,为信息检索提供更有针对性的指导。在实际检索中,用户可以根据具体需求选择合适的数据库和叙词表,以获取更准确、全面的农业相关信息。
3.2 包含“农业”和“农业的”的主题词
各叙词表中包含“农业”和“农业的”的主题词数量和具体内容差异显著。例如,C - Eric、C - SocAb、Ei - Comp和Ei - Insp中只有一个包含“农业”的术语,而Eb - ASC有多达121个;O - PsyInf中没有包含“农业”的标题,只有两个包含“农业的”的标题,而Eb - ASC有213个“农业的”相关术语。
以下是各叙词表中包含“农业”和“农业的”的主题词列表(部分展示):
| 数据库 | 包含“农业”(agr) | 包含“农业的”(agcl) |
| ---- | ---- | ---- |
| C - Eric | 1:agr | 8:agcl colleges, agcl education等 |
| C - Lisa | 6:agr, agr libraries等 | 4:agcl economics, agcl engineering等 |
| C - SocAb | 1:agr | 14:agcl collectives, agcl development等 |
| Eb - ASC | 121:agr, agr & state等 | 213:african american agcl laborers, agcl ability等 |
| Eb - Medl | 4:agr, organic agr等 | 4:agcl irrigation, agcl workers’ diseases等 |
| Eb - PSC | 8:agr & state, agr & politics等 | 22:colonial agcl laws, agcl subsidies等 |
| Ei - Comp | 1:agr | 7:agcl chemicals, agcl engineering等 |
| Ei - Insp | 1:agr | 5:agcl engineer., agcl machinery等 |
| O - PsyInf | 0 | 2:agcl workers, agcl extension workers |
| P - ABInf | 4:agr, agr teachers等 | 16:agcl banking, agcl biotechnology等 |
从图2可以看出,不同数据库中“农业”和“农业的”在主题词字段中的出现情况不同。在Eb - ASC、Eb - Medl、Ei - Insp和P - ABInf中,包含“农业”的标题检索到的记录更多;而在C - Eric、C - SocAb、Ei - Comp和O - PsyInf中,“农业的”检索到的记录更多。由于这两个概念非常相似,使用截断(如“agricultur*”)可以在不降低精度的情况下提高召回率。Ei数据库和叙词表(Inspec和Compendex)采用默认的自动词干提取(自动词干分析),因此“农业”和“农业的”的检索结果没有差异,只有关闭自动词干提取才能确定每个术语索引的确切文档数量。
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A(C - Eric):::process --> B(agr: 1):::process
A --> C(agcl: 8):::process
D(C - Lisa):::process --> E(agr: 6):::process
D --> F(agcl: 4):::process
G(C - SocAb):::process --> H(agr: 1):::process
G --> I(agcl: 14):::process
J(Eb - ASC):::process --> K(agr: 121):::process
J --> L(agcl: 213):::process
M(Eb - Medl):::process --> N(agr: 4):::process
M --> O(agcl: 4):::process
P(Eb - PSC):::process --> Q(agr: 8):::process
P --> R(agcl: 22):::process
S(Ei - Comp):::process --> T(agr: 1):::process
S --> U(agcl: 7):::process
V(Ei - Insp):::process --> W(agr: 1):::process
V --> X(agcl: 5):::process
Y(O - PsyInf):::process --> Z(agr: 0):::process
Y --> AA(agcl: 2):::process
AB(P - ABInf):::process --> AC(agr: 4):::process
AB --> AD(agcl: 16):::process
通过对这些主题词的分析,我们可以发现不同数据库和叙词表对农业相关概念的定义和分类存在差异。这就要求用户在进行信息检索时,要充分了解各个数据库的特点,灵活运用检索技巧,如截断、词干提取等,以提高检索的准确性和效率。同时,对于一些特殊情况,如P - ABInf中“农业”和“农业的”检索结果差异较大,用户需要深入了解其检索机制,才能更好地获取所需信息。
非农业和通用叙词表中的农业相关概念
3.2 主题词中“农业”与“农业的”的检索情况分析
在不同的数据库中,“农业”和“农业的”这两个词在主题词中的检索表现差异明显。这种差异不仅体现在检索到的记录数量上,还反映了各数据库对农业相关概念的不同侧重点和分类方式。
从记录检索数量来看,如前文所述,Eb - ASC、Eb - Medl、Ei - Insp和P - ABInf中包含“农业”的标题检索到的记录更多,而C - Eric、C - SocAb、Ei - Comp和O - PsyInf中“农业的”检索到的记录更多。以P - ABInf为例,“农业”检索到142,000条记录,而“农业的”仅检索到49,000条记录。这是因为在P - ABInf中,搜索“农业”不仅会检索到标题,还会检索到所有被分类代码8400(农业产业)分类的记录。
从主题词的具体内容来看,各数据库也有很大不同。Eb - ASC中包含大量高度专业化的主题词,如“女性农业工程师”“女性农业劳动者”等,这反映了该数据库叙词表中首选术语数量众多(196,000个),对农业相关概念的细分程度较高。而Eb - PSC则包含如“农业推广工作 - 政府政策”这样非常专业化的主题词,体现了其在政治学领域对农业相关政策方面的关注。
以下是一个表格总结不同数据库中“农业”和“农业的”检索记录数量对比(大致情况):
| 数据库 | “农业”检索记录数 | “农业的”检索记录数 |
| ---- | ---- | ---- |
| C - Eric | 较少 | 较多 |
| C - Lisa | - | - |
| C - SocAb | 较少 | 较多 |
| Eb - ASC | 较多 | 较多(但“农业”更多) |
| Eb - Medl | 较多 | 较少 |
| Eb - PSC | - | - |
| Ei - Comp | 较少 | 较多 |
| Ei - Insp | 较多 | 较少 |
| O - PsyInf | 无 | 较少 |
| P - ABInf | 142,000 | 49,000 |
对于用户而言,在进行信息检索时,需要根据自己的需求选择合适的数据库和检索词。如果需要获取更全面、细分的农业相关信息,可以选择Eb - ASC;如果关注农业政策相关内容,Eb - PSC可能更合适。同时,由于“农业”和“农业的”概念相似,使用截断检索(如“agricultur*”)可以在不降低精度的情况下提高召回率。在Ei数据库和叙词表(Inspec和Compendex)中,由于采用默认的自动词干提取,“农业”和“农业的”检索结果相同,若要确定每个术语索引的确切文档数量,需关闭自动词干提取功能。
4. 信息检索建议
基于上述对不同数据库和叙词表中农业相关概念的分析,为了提高信息检索的效率和准确性,我们为用户提供以下几点建议:
-
了解数据库特点
:不同数据库有不同的专业领域和覆盖范围,在检索前应先了解各数据库的特点,选择最适合自己需求的数据库。例如,若关注教育领域的农业信息,可选择C - Eric;若进行生物医学方面的农业研究,Eb - Medl可能更合适。
-
灵活运用检索技巧
:
-
截断检索
:使用截断符号(如“agricultur
”)可以扩大检索范围,提高召回率,同时不降低精度。尤其是在“农业”和“农业的”概念相近的情况下,截断检索能更全面地获取相关信息。
-
词干提取
:对于一些采用自动词干提取功能的数据库(如Ei数据库),要了解其机制。在需要确定具体术语索引文档数量时,可关闭该功能。
-
展开功能
:部分叙词表提供“展开”功能,能在检索时包含所有狭义术语,可充分利用该功能获取更全面的信息。
-
结合多种检索词
:除了“农业”和“农业的”,还可以结合其他相关词汇进行检索,如“农业经济”“农业技术”等,以缩小检索范围,提高检索的准确性。
-
注意检索语法
*:不同数据库有不同的检索语法,如Ebsco数据库中字段名前缀大小写敏感,在检索时需严格按照其语法规则输入检索词。
5. 总结
本研究对多个非农业和通用信息系统及数据库中的农业相关概念进行了深入分析,主要聚焦于这些系统中的叙词表。通过对主要主题词“农业”的树状结构、包含“农业”和“农业的”的主题词以及它们在各数据库中的检索情况的研究,我们发现不同数据库和叙词表在农业相关概念的定义、分类和检索表现上存在显著差异。
这些差异反映了各数据库的专业领域、覆盖范围和对农业相关信息的侧重点不同。例如,一些数据库侧重于农业的经济、社会方面,而另一些则更关注农业的技术、工程领域。这种多样性为用户提供了更广泛的信息来源,但也增加了信息检索的复杂性。
为了应对这种复杂性,用户需要充分了解各数据库和叙词表的特点,灵活运用各种检索技巧,如截断检索、词干提取、展开功能等。同时,结合自己的研究需求,选择合适的数据库和检索词,才能更准确、高效地获取所需的农业相关信息。
未来,随着信息科学的不断发展和农业领域的不断拓展,非农业和通用信息系统中的农业相关信息可能会更加丰富和复杂。我们建议进一步研究如何整合这些分散的信息资源,开发更智能、便捷的信息检索工具,以满足用户日益增长的需求。此外,还可以探索如何利用大数据和人工智能技术,对这些农业相关信息进行深度挖掘和分析,为农业领域的研究和决策提供更有力的支持。
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A(信息检索):::process --> B(了解数据库特点):::process
A --> C(灵活运用检索技巧):::process
A --> D(结合多种检索词):::process
A --> E(注意检索语法):::process
C --> F(截断检索):::process
C --> G(词干提取):::process
C --> H(展开功能):::process
这个流程图展示了信息检索的主要步骤和方法,用户可以按照这个流程进行高效的农业相关信息检索。通过综合运用这些方法,能够更好地应对不同数据库和叙词表的差异,提高检索的准确性和效率。
超级会员免费看
1万+

被折叠的 条评论
为什么被折叠?



