第五章 使用性元数据
1、描述性、管理性等元数据都是有意创建的数据,与之相反,数据废气是做其他事情无意间产生的数据。
2、并行数据
(1)在使用在线资源时,都有可能在无意中产生数据,这种数据往往以网络服务器日志的形式存在,一般来说,用户永远都不会看到网络服务器上运行的软件,而这类软件会搜集关于服务器上所有活动的数据。在这些活动类型中,其中一种用于在服务器上满足文件请求,例如,呈现网页以及嵌入网页的图像或其他媒体,这些存取记录包含大量与提出请求的客户端相关的信息。网络服务器存取记录能让系统管理员追踪服务器的使用与健康状况,但是仅限于描述性数据。为此,越来越多的系统被设计为可以搜集关于用户使用系统的具体数据类型。
(2)在线教学和学习是使这类使用性数据来说,并行数据是一个相对较新的术语,这一术语的大背景是NSDL(国家自然科学数字图书馆)希望通过一种方法来引用用户在NSDL中使用数字学习对象的情况。NSDL将并行数据定义为“关于教育资源的使用性元数据”。NSDL最初是美国国家科学基金的一个项目,现已成为关于高质量在线教育资源的元数据以及相关链接的集合,尤为关注STEM学科,即科学science、技术technology、工程engineering与数学mathematics。NSDL本身并不存放任何教育资源,所有资源都存放在其他组织的网站上,NSDL完全由与教育资源和存放这些资源的组织有关的描述性元数据构成,除这类元数据外,NSDL还搜集使用这类资源的元数据,即这些资源在一段时间内被下载多少次,在Twitter上被提及过多少次,在课程中使用过多少次,修改过多少次以及其他使用指标。在关于并行数据的文档中,NSDL明确指出,并行数据的目的不是替代描述性元数据,而是对其进行补充,NSDL存放的描述性元数据能帮助用户搜索、浏览教育资源,NSDL搜集的并行数据可以为NSDL本身以及其他合作组织反馈如何、为什么以及谁曾使用这些资源。
(3)NSDL并不是唯一一个搜集并行数据的组织,另外,仪表盘也是展示网站和其他在线系统数据的常用工具。
(4)这些使用性元数据,对于网络服务器来说,这种数据被称为日志,在其他资源领域,则被称为分析数据,对于其他服务来说,则往往被称为数据。
第六章 实现元数据的技术
1、结构化数据
(1)页面上的文字拥有结构,即格式,格式是一种结构形式,而这种特定的结构形式能帮助我们识别文字的类型,即使文字本身没有任何意义也可以识别。从深层次上看,语言本身也拥有结构,用自然语言写成的任何一篇文字都具有其内在的结构,这也就是自动化语言翻译工具和文体学得以发挥作用的根本原因。实际上,所有数据都是结构化的,只有完全无序才是非结构化,但结构往往嵌入在非结构化数据中,只要付出一定努力就能找出这样的结构。任何以及所有数据都能以结构化的方式展现,这就是数据库得以存在的原因。数据库能将数据集分解为一个陈述集合并且将其保存为分配给共享字段的值集合。
(2)数据库的陈述与元数据主谓宾陈述拥有类似的结构。关系型数据库可以在一个字段与表格形式的值之间建立起关系,从而控制可以为该字段分配什么值。即某一字段所引用的表格称为受控词汇表,分配到该字段单元格中的值仅可以来自该受控词汇表。
(3)元数据的存在部分上取决于结构化数据的存在,结构化数据根据某种数据模型进行组织,而模式是数据所描述各类实体、属性以及实体之间关系的表现。目前存在很多数据模式,但对于大多数元数据工作来说,最为核心的就是RDF(资源描述框架)
2、RDF 资源描述框架