文化遗产保护中内容的叙事标注
1. 关系设计与术语差异
在关系设计方面,采用了一种特殊的设计,允许如 (aR1b)R2c 这样的关系存在。这种设计在相关文献中存在一定争议,有观点主张使用纯 n 元关系,但最终选择这种设计是因为它具有更高的灵活性,并且更符合所选实现技术的要求。
在术语上,与使用具化事实的方案存在重要细微差别。在其他方案中,属性通过一组静态谓词与实体相连,而在本方案中,谓词是一种成熟的实体类型,其实例取值没有限制。这样的选择是为了在叙事语境下实现更强的表达能力,但处理这种开放词汇会带来额外困难,后续会借助自然语言处理(NLP)手段解决。
2. 内容描述模型
将支持叙事知识形式化的实体与描述实际管理内容的实体分开。主要区分了两种文档类型:
- 故事 :本质上由文本字符串组成。
- 媒体 :包含实际媒体文件以及形式化描述。
这两种实体之间可能存在可选的直接链接,例如一个或多个故事可以作为媒体的说明,一个或多个媒体也可以装饰一个故事。
依据 Camomile 项目的原则,通过注释来建立叙事实体和内容描述之间的联系。注释通过其叙事字段将图 1 模式中的叙事实体与管理的多媒体内容的整体或片段相关联。片段字段(一个整数数组)可让注释针对文档的特定片段,其含义取决于上下文,如故事的起始和结束字符位置、音频和视频的起始和结束时间戳、图片的像素边界框等。
图 3 中的根概念“语料库”抽象了一组同类文档,便于对不同语料库进行单独处理。“层”用于收集针对给定语料库内容的相同性质的注释,例如特定用户或用户组在特定
超级会员免费看
订阅专栏 解锁全文
1074

被折叠的 条评论
为什么被折叠?



