有用的信息很少以整洁分类、标记或容易在内容管理系统中存储的形式出现。如果是这样,我们的工作该会轻松多少啊!相反,您必须分析要存档的信息,以确定对于存储和容易的检索来说可用和可维护的结构。为了建设性地使用信息,您选择的分类必须支持预期受众快速定位最相关资料的能力。
面对日益增多的在线和离线信息,创建可用的数据结构变得前所未有地重要。数据组织的目标是提供对由不同数据存储库表示的海量资源的访问。请考虑现在使用 Yahoo、Google 或 Ask.com 执行的 Web 搜索的常见示例。仅在几年前,富有成效的搜索可能还需要逐个页面地仔细搜索一个或两个值。今天,使用高级搜索算法,大多数搜索都可以在头几个页面中找到感兴趣的信息,或者可以基于突出显示的相关词条快速改进搜索。
要提供针对大型数据仓库的有用见解,第一步是生成一种引用信息的常见方法——换句话说,就是开发受控词汇表。
![]() ![]() |
![]()
|
受控词汇表可以具有任何程度的复杂性,但是创建受控词汇表通常要求信息架构师具备对信息领域的深入见解。词汇表创建者使用诸如 ISO2788(请参见参考资料)等标准来建立用于特定分类层次结构的术语集。数据词汇表标准是管理特定信息集合的统一、经过测试和有效的方法。例如,存在用于对图书、音乐、电影、地图或其他项目进行分类的图书馆标准。该系统为熟悉图书馆标准的任何人提供了一种快速定位所关心信息的统一方法。
创建受控词汇表的最常见方法是使用常见的术语来描述信息集,以及将这些术语安排到单个具有根的层次结构中。例如:
石头 -> 岩石 -> 石灰石 -> 大理石 -> 印度绿大理石
如果了解地质学,这种结构将非常直观、普遍并且相对容易构造。本文的下一个部分将讨论四种不同类型的基于术语的受控词汇表结构。
另一种形式的词汇表标准是规范文件 (authority file)。图书馆组织方案中经常使用规范文件来明确定义一组术语。法律中也广泛使用它们来建立特定法律条款的统一定义。通常只有在误解某个特定条款导致严重后果时,才会创建这些正式语言。例如,在诉讼案件中,由于自然语言歧义性导致的误解可能会导致巨大的财务后果甚至监禁。
相关但不太严格的受控词汇表是职业行话。某个行业(医疗、法律、科学、工程等等)中建立行话是为了实现快速而明确理解。职业行话需要有关特定主题的深入知识。存在许多行话的案例,但是由于大多数术语都没有得到官方认可,因此一个领域的一群工作者使用的行话术语可能与另一个领域的人使用的行话术语不同。结果,某个行话术语可能没有唯一的定义。由于这个原因,在将行话用于控制术语时应该非常小心。应该确保预期受众熟悉这些术语,还要确保这些术语定义良好并且非常稳定。
图标表示 (Iconic representation) 是另一种功能强大和受控制的信息表示方法。在这种类型的表示法中,信息分类由可视的图标形式而不是语言术语来表示。考虑一张预期由可能不讲本地语言的游客使用的城市地图。城市旅游景点和设施的图示表示要比标准语言表述更容易理解。但是这种方法要求熟悉所选符号的含义(例如表示医疗建筑的符号;在许多中东国家,表示医疗建筑的符号是红新月徽而不是红十字徽),从而使得图标表示法成为一种具有挑战性的方法。此外,即使在最好的情况下,使用图像或图标信息表示形式也很难植入层次结构思想。
![]() |
|
已经有许多优秀的资料来源讨论了不同种类的基于术语的受控词汇表,因此本文仅对它们进行简要的介绍(请参见参考资料部分)。在定义信息组织结构时,经常使用四种基本形式(按复杂性递增的顺序列出):
本文转自IBM Developerworks中国