分布式内容管理与数字对象格式解析
1. 分布式内容管理基础
人们在处理信息时,需要为消息和共享信息建立共同基础,以便正确解读、管理和维护这些信息。这就要求有通信约定和标准,以及符合其他标准的网络基础设施。如今,这些标准和基础设施已广泛应用,只有在出现重大故障(如新奥尔良卡特里娜灾难)或小问题(如文件无法访问)时,用户才会注意到它们的存在。在内容保存的讨论中,仅需涉及这些技术的一小部分。
我们拥有相互协作的存储库网络。从保存的角度来看,内容存储和访问路径的冗余可能是这种基础设施最重要的应用。可行的保存解决方案应允许存储库机构和个人用户在不中断的情况下,利用已部署和未来的软件,遵循允许“混合搭配”不同供应商组件的接口约定。随着时间的推移,这些软件会不断改进,每周都会有在扩展性、可靠性、安全性和成本方面更优的新产品推出。此外,相关标准能让每个机构和个人在处理保存信息时拥有较大自主权,同时平衡信息共享的目标。例如,一个机构可以管理自主的存储库,并通过软件层将其内容呈现得如同来自单个存储库。
大学图书馆和其他文化遗产机构最近才开始广泛探索此类技术的应用。“机构存储库正被明确地定位为通用基础设施,适用于不断变化的学术实践、电子研究和网络基础设施,以及数字时代大学的愿景。”
2. 编码标准选择
为复杂数据类型编码时,我们主要关注的应是主要编码标准,而非基于这些标准定义的其他标准。选择主要标准时需谨慎,最终的选择将由社区决定,这需要比本书更详细的讨论。幸运的是,持久编码所需的基本标准仅限于 ASCII、Unicode、UTF - 8、描述计算机程序的方法以及 XML 的核心部分。其他标准有助于绕过专有数据格式带来的障碍,如 Microsoft Offi