第九章 文件和内容管理
一、引言
文件和内容管理是指针对存储在关系型数据库之外的数据和信息的采集、存储、访问和使用过程的管理。它的重点在于保持文件和其他非结构化或半结构化信息的完整性,并使这些信息能够被访问。
1.1 业务驱动因素
文件和内容管理的主要业务驱动因素包括法律遵行性要求、诉讼响应能力和电子取证请求能力以及业务连续性要求。
- 法律法规要求组织保留某些活动的档案
- 电子取证是查找可能作为法律诉讼证据的电子档案的过程
- 组织应对电子取证请求的能力取决于其主动管理电子邮件、聊天、网站、电子文件等档案以及原始应用程序数据和元数据的水平。
1.2 目标和原则
目标:
- 确保能够高速有效地采集和使用非结构化的数据和信息
- 确保结构化和非结构化数据之间的整合能力
- 遵守法律义务并达到客户预期
指导原则:
- 组织中的每个人都应该在保护组织的未来方面发挥作用
- 档案和内容处理方面的专家应允许参与制度和规划的制定
ARMA国际档案保存指导原则:
- 问责原则:组织应指派适当的高级管理人员,采用制度和流程来指导员工,并确保计划的可审计性
- 完整原则:建立信息治理规划,使组织创建或管理的档案盒信息具有合理性以及适当的真实性和可靠性保证。
- 保护原则:建立信息治理规划,确保对个人信息或其他需要保护的信息提供合理的保护。
- 遵从原则:建立信息治理规划,尊熊适用的法律法规和其他有约束力的机构及组织的制度要求。
- 可用原则:组织应确保以及时、高效和准确检索其信息的原则来维护其信息
- 保留原则:组织的信息应保留适当的时间,并考虑所有运营、法律、监督和财政以及其他所有相关约束的要求
- 处置原则:组织应根据其制度、适用的法律法规以及其他有约束力的机构要求,提供安全和适当的信息处置
- 透明原则:组织应以工作人员和利益相关方可以理解的方式记录其制度、流程和活动,包括其信息治理规划。
1.3 基本概念
1.3.1 内容
内容是指文件、档案或网站内的数据和信息。内容通常基于文件所代表的的概念以及文件的类型或状态来管理。
(1)内容管理
内容管理包括用于组织、分类和构造信息资源的流程、方法和技术,以便以多种方式存储、发布和重复使用这些资源。内容的生命周期可以是动态的,通过受控的创建和修改流程进行日志更改;它们也可以是静态的,只发生很少或偶尔的更改。
(2)内容元数据
非结构化数据内容的元数据基于:
- 格式:通常数据格式决定了访问数据的方法
- 可搜索性:是否已经具备用于搜索相关非结构化数据的工具
- 自我描述性:元数据是否有自我描述能力
- 既有模式:是否可以采用或适配现有方法和模式
- 内容主题:人们可能在寻找的东西
- 需求:需要进行彻底和详细的检索能力
(3)内容建模
内容建模是将逻辑概念转换为具有关系的内容类型、属性和数据类型的过程。内容建模有两个层次。第一个是信息产品级别,它会产生一个像网站一样的实际可交付成果;第二个是组件级别,它进一步详细说明了构成信息产品模型的元素。
(4)内容分发方法
内容分发系统可分为如下三种:
- 推式:在推式系统中,用户按照预先确定的时间表选择传送给他们的内容类型。发布方创建内容并在多个地方将其发布。
- 拉式:在拉式系统中,用于通过互联网获取内容
- 交互式:需要在企业应用之间交换大量的实时数据。
1.3.2 受控词表
受控词表是被明确允许用于通过浏览和搜索对内容进行索引、分类、标引、排序和检索术语的定义列表。在理想情况下,受控词表应与企业概念数据模型中的实体名称和定义保持一致。自下而上的方法是收集术语和概念并把它们汇编到一个大众分类中。
(1)词汇表管理
词汇表管理是针对任何给定的儿词汇进行定义、寻源、导入和维护的过程。实现词汇表管理的关键问题集中在用途、消费者、标准和维护4个方面。
(2)词汇表视图和微控制词汇表
- 词汇表视图:是受控词表的子集,涵盖了受控词表领域内有限范围的主题。词汇表视图通过只展示适合用户的内容来增加信息的可用性。手动构建所需术语的词汇表视图,或通过作用于所需词汇表术语的数据或元数据的业务规则来构建词汇表视图
- 微控制词汇表:是包含一般词汇表中不包含的而高度专业化术语的额词汇表。目标是采用标准的词汇表,通过微控制词汇表作为必要额补充,其缺少的内容需要专业的信息使用者进行田间/扩展。
(3)术语和选择列表
术语列表仅仅就是一个列表,它们不会描述术语之间的关系。选择列表通常隐藏在应用程序中。
(4)术语管理
术语管理包括在受控词汇表中建立术语之间的关系,关系分为以下三种:
- 等价术语关系:这种关系同事使用多个术语而不是进行交叉引用术语
- 层次化关系:它描述广义到狭义的真题-部分的关系
- 关联关系:与受控词表中的另一个术语相关联,但这种关联不是层次化的
(5)同义词环和规范表
- 同义词环是指一组含义大致相同的术语。同义词环允许搜索其中一个术语用户去访问与该词环其他术语相关的内容。
- 规范表是描述性术语的受控词汇表,旨在促进特定领域或范围内的信息检索。
(6)分类法
分类法是指任何分类或数控词表的总称。在内容管理中,分类法是一种命名结构,包含用于概述主题、启用导航和搜索系统的受控词表。分类法可有多种不同结构:
- 扁平分类法:在受控类别集之间没有关系,所有类别都是平等的。类似于列表。
- 层次分类法:它是一种树结构,其中节点通过规划则相互关联。层析结构至少具有两个级别并且是双向