GDPRtEXT – 通用数据保护条例作为关联数据资源
摘要
《通用数据保护条例》(GDPR)是一项新的欧洲数据保护法,其合规性在涉及同意和个人数据使用的多个方面影响着组织。随着研究和数据管理解决方案的创新不断涌现,这些方案声称可协助满足GDPR的各项条款,但若缺乏整合手段,比较这些方案的程度与范围仍具挑战性。通过将GDPR作为链接数据资源,可以将针对特定条款的信息和方法相互关联,从而实现比较。组织可通过将查询和结果直接链接到相关文本,记录并衡量其解决方案对特定义务的合规情况。GDPR文本扩展(GDPRtEXT)采用由欧洲出版局发布的欧洲立法标识符(ELI)本体,将GDPR以链接数据形式发布。该数据集使用DCAT发布,并提供一个在线网页,其中每个条款及其子点均配有HTML ID属性。同时提供一个SKOS词汇表,将概念与GDPR中的相关文本进行链接。为了展示如何链接相关法律法规以突出它们之间的变化并重用现有方法,我们提供了从此前的数据保护指令(DPD)到GDPR的映射,表明两项法律法规之间的变更性质。我们还简要讨论了现有的一些研究语录库,这些语录库可从该资源的应用中受益。
关键词 :通用数据保护条例 · DPD · Linked资源 · Regulatory技术 · 法律合规 · SKOS · DCAT · e-governance
1 引言
《通用数据保护条例》(GDPR)是一项新的欧洲数据保护法规,于2018年5月25日生效。该法规在组织为实现合规所需采取的措施方面带来了重大变化。特别是,通用数据保护条例强调同意和个人数据的使用。
尽管这些解决方案声称有助于实现通用数据保护条例的各项规定,但由于无法以高效的方式对其进行整合,比较和收集这些解决方案仍是一项困难的任务。
缺乏针对通用数据保护条例具体节的方法,导致相关方法无法以统一且一致的方式相互关联。这在比较其程度和范围时造成困难,特别是关于声称有助于合规的解决方案的度量指标。这种情况阻碍了进展,因为它限制了与特定资源(在此情况下为通用数据保护条例文本中的概念或要点)相关信息的可查找性。
由于法律法规中的特定条款和概念使用某种编号系统来指代,例如第5条第1款表示第5条中的第一点,因此可以利用此方式创建指向通用数据保护条例中的各个独立资源的统一资源标识符。通过这些统一资源标识符,可以定义针对或引用特定点或概念的信息。以此方式,GDPR中的法律资源和概念不仅可以相互关联,还可以与其他资源进行关联。
组织和研究人员通过这种方式能够将查询和结果直接链接到通用数据保护条例的相关文本,从而可以记录和衡量针对特定义务的合规解决方案。同样的方法也可用于将相关法律法规与通用数据保护条例进行链接。此类关联信息之间的链接具有机器可读的优势,因此可以以自动化的方式进行查询和处理。
通过本文及其相关资源,我们旨在缓解上述法律文本的局限性,并展示如何应用FAIR原则将与《通用数据保护条例》(GDPR)及其合规相关的各类信息进行关联。为此,我们提出了GDPR文本扩展(GDPRtEXT),该扩展包括定义为DCAT目录的GDPR文本,该目录包含官方文本以及作为数据集创建的RDF资源,同时还包括一个定义了与GDPR相关概念的SKOS本体。本文以链接GDPR与其前身——数据保护指令(DPD)——的应用为例,展示了GDPRtEXT的实际用途,以促进现有解决方案在应对GDPR方面的采用。所有描述的资源均已记录并在线提供¹,遵循CC-by-4.0许可证²。
本文的其余部分结构如下:第2节讨论了通用数据保护条例关联数据资源和GDPRtEXT本体的动机与创建。第3节包含DPD与GDPR义务之间的映射。第4节描述相关工作。第5节讨论潜在应用及对社区的好处。第6节总结全文并探讨未来工作。
¹ https://openscience.adaptcentre.ie/projects/GDPRtEXT/
² https://creativecommons.org/licenses/by/4.0/
2 资源的创建
2.1 动机
在我们之前涉及通用数据保护条例的工作中[10,13,15,19],我们在引用通用数据保护条例的概念和义务以及整合特定义务的相关信息时遇到了挑战。鉴于此,我们最初采用的方法是为文本中的每个条款分配一个永久的统一资源标识符,使用HTML片段,以便将其作为可链接的资源进行引用。随后,我们扩展了这一方法,创建了一个资源描述框架数据集,可在其他工作中使用,并通过SPARQL进行查询。
鉴于其有用性以及对社区的好处,我们移除了项目特有的人工制品,将其作为开放资源提供。
2.2 范围
本工作的范围明确限定于通用数据保护条例。尽管通用数据保护条例中明确提到了其他法律法规,但这些法律法规未在本资源中涉及。在创建本资源时,通用数据保护条例被视为最终版本,即已发布完整版本而非草案。对通用数据保护条例的更新(相关法律法规或未来法律)将作为单独的法律文件发布,这些文件可以类似地进行标注并添加到本数据集中,然后可通过DCAT目录一并发布。当需要更新本体时,应将其视为将新的法律法规纳入现有知识库的过程。
2.3 通用数据保护条例作为关联数据
GDPR文件[7]按以下顺序分为三种类型的陈述:173条序言、99个条款和21个引用。条款被组织在章节(从I到X编号)和节中,每个章节包含零个或多个节。一个条款可能包含若干点,这些点可能有子点,子点可能编号也可能不编号。引用出现在文档末尾,并根据其在文本中的引用顺序进行编号。
为了定义法律资源,我们使用由欧洲出版局发布的欧洲立法标识符(ELI)³本体。ELI通过基于一组已定义的相关属性或术语的统一资源标识符模板,在欧洲、国家和区域层面实现对立法的识别。它提供了一系列描述每项立法行为的元数据定义及其在形式化本体中的表达。通过对ELI元数据元素进行序列化,可使用RDFa将元数据集成到立法网站中。
我们采用最新版本的ELI OWL本体(v1.1,发布于2016-09-19),将类Chapter, Section, Article, Point, SubPoint, Recital, 和 Citation 定义为 eli:LegalResourceSubdivision(LRS)的子类,而eli:LegalResourceSubdivision 本身又是 eli:LegalResource(LR)的子类。LR用于在文档级别定义资源,而LRS用于定义文档中包含的资源。
ELI定义了属性hasPart及其逆向属性isPartOf用于连接两个LR。
GDPRtEXT通过添加额外的属性,将各个章节、节、条款和点相互连接起来。由于我们对ELI进行了扩展,GDPRtEXT可以以与ELI预期用途兼容的方式使用,包括在网站中作为RDFa使用。
可在线获取的通用数据保护条例官方文本⁴以HTML页面形式存在,使用JavaScript提取其文本⁵。随后将其导出为包含元数据(如资源类型(条文、章节等)和编号(罗马数字、阿拉伯数字或无编号))的JSON文档。该RDF数据集通过Python脚本使用rdflib生成⁶,该脚本利用上述描述的ELI扩展迭代创建三元组。
DCAT⁷和VOID⁸用于定义包含三个数据集的通用数据保护条例目录,如表1所示。第一个数据集描述了由欧洲出版局发布的官方文件,作为具有其规范URL的分发版本。第二个数据集描述了包含由自适应研究中心托管的通用数据保护条例文本副本的分发版本,其中包括通用数据保护条例的HTML和JSON表示形式。HTML版本使用id属性为文本中的每个法律资源定义片段标识符。这使得可以直接引用(或导航)到文本中的特定条款、项或子项。这类似于通用数据保护条例文本的资源描述框架分发版本,其中每个法律资源都有一个唯一的统一资源标识符。第三个数据集包含以Turtle、N-Triples、N3和JSON-LD格式序列化的通用数据保护条例的资源描述框架表示。
该目录描述了一个使用OpenLink Virtuoso三元组存储托管的SPARQL端点⁹,用于发布包含通用数据保护条例文本的RDF数据集,并通过Pubby提供在线前端界面¹⁰,如图1所示。该数据集及其分发的所有统一资源标识符均使用永久网址(purl.org)方案来引用资源。
表1. GDPRtEXT DCAT目录中的数据集和分发
| 数据集 | 分发 | 评论 |
|---|---|---|
| Canonical数据集 | HTML, PDF, XML | 官方发行版 |
| Textid数据集 | HTML, JSON, text | 带有ID |
| 已注释数据集 | XML, N3, NT, Turtle, JSON-LD | RDF数据集 |
⁴ http://eur-lex.europa.eu/eli/reg/2016/679/oj
⁵ https://opengogs.adaptcentre.ie/harsh/GDPRtEXT/
⁶ https://rdflib.readthedocs.io/en/stable/
⁷ https://www.w3.org/TR/vocab-dcat/
⁸ https://www.w3.org/TR/void/
⁹ https://virtuoso.openlinksw.com/
¹⁰ http://wifo5-03.informatik.uni-mannheim.de/pubby/
图1. 使用Pubby显示的GDPRtEXT中关于通用数据保护条例第12条第3款的资源描述框架
2.4 GDPRtEXT本体
GDPRtEXT本体的目的是提供一种引用通用数据保护条例中表达的概念和术语的方式。该本体并不旨在通过推理等方法对合规义务进行解释。其目标是成为一个开放资源,用于解决与通用数据保护条例合规性相关的互操作性建模方案。
本体的开发遵循了开创性指南“本体开发101”[18]。开发工作首先确定了范围,进而明确了目标:提供一种引用通用数据保护条例中各项概念的方式。选择SKOS¹¹词汇表来描述通用数据保护条例中的概念,因为它是用于定义术语的W3C推荐标准。
所定义的术语通过上一节中描述的URI方案,使用rdfs:isDefinedBy属性与通用数据保护条例文本中的相关点进行链接。术语之间的额外链接则通过另外创建的名为“involves”的注解属性建立。本体的开发是在Protégé¹² v5.2.0 本体开发环境中完成的。
在初步收集术语后,为了根据通用数据保护条例的要求构建概念层次结构,向本体中添加了其他术语。例如,已识别的数据类型(如个人数据和匿名数据)被定义为通用术语“数据”的子类。这使得能够表示概念的封装,并提供了一种以抽象形式引用该术语的方式。请注意,该本体并未使用broader/narrower概念存在于简单知识组织系统中,但使用子类作为以分层方式收集相关概念的简单手段。
类似的工作也针对与各项义务和实体相关的概念展开。还添加了从GDPR文本中提及或推断出的其他概念,例如实体、原则和非法处理,但这些概念未与GDPR文本进行链接。此项收集工作旨在定义合规文档中所需的所有必要术语。在撰写本文时,GDPRtEXT包含基于GDPR文本中出现的术语、使用SKOS词汇表定义的200+个类。
该词汇表如图3(a)和(b)所示,广泛使用活动、合规、同意、数据、实体、排除与例外、义务、原则、权利以及印章/认证等类别来定义术语。每个类别包含多个术语,并通过子类的层次结构进一步明确其概念和范围。某些术语属于多个概念,因此被定义为多个概念的子类。例如,ProvideCopy-OfData指将个人数据副本提供给数据主体的数据可携权,是数据活动以及数据可携权下的一個概念。
除了《通用数据保护条例》的官方文本外,我们还使用了各种资源来理解其中的术语和概念。我们参考了官方来源提供的资源,例如爱尔兰数据保护专员¹³和英国信息专员办公室¹⁴,以及行业来源,例如Nymity的GDPR手册¹⁵。
¹¹ https://www.w3.org/TR/skos-reference/
¹² https://protege.stanford.edu/
¹³ https://www.dataprotection.ie/
¹⁴ https://ico.org.uk/
¹⁵ https://www.nymity.com/
2.5 文档
由于术语数量众多,本体的文档化呈现了一个挑战。为了部分自动化该过程,我们使用了本体文档化向导(Widoco)¹⁶[12],该工具利用LODE¹⁷[20]生成本体文档,并使用WebVOWL¹⁸[16]进行可视化。生成的HTML文档可在线获取¹⁹,如图2所示。文档根据核心概念对术语进行分组,例如同意、数据、活动和合规以提高文档的可读性。本体中的每个术语均按照Widoco最佳实践文档中规定的元数据²⁰进行定义,以生成其全面的文档。
文档包含两个GDPRtEXT的示例用例。第一个展示了通过链接相关测试和结果在合规报告中的应用与代表它们的通用数据保护条例条款。这通过使用EARL²¹词汇表来表达测试结果。第二个示例展示了通用数据保护条例义务与之前的数据保护法律之间的关联,下一部分将对此进行更详细的描述。我们还使用GDPRtEXT将来源术语与其在相关通用数据保护条例条款中的定义进行链接[19]。
¹⁶ https://doi.org/10.5281/zenodo.591294
¹⁷ http://www.essepuntato.it/lode
¹⁸ http://vowl.visualdataweb.org/webvowl.html
¹⁹ http://purl.org/adaptcentre/openscience/ontologies/GDPRtEXT/docs
²⁰ https://dgarijo.github.io/Widoco/doc/bestPractices/index-en.html
²¹ https://www.w3.org/TR/EARL10-Schema/
图2. 使用Widoco生成的GDPRtEXT本体文档
3 将数据保护指令义务与通用数据保护条例关联
数据保护指令(DPD)是此前于1995年通过的数据保护法规,现已被通用数据保护条例(GDPR)取代。由于已有大量解决方案和方法针对数据保护指令(DPD)的合规问题,研究重用这些现有解决方案对通用数据保护条例将是有益的。为此,我们提供了从数据保护指令义务到通用数据保护条例义务的映射,其中包含描述两者之间变化性质的注释。该注释还描述了在之前使用可扩展访问控制标记语言规则对数据保护指令义务进行建模的工作中所需进行的变更[8,9]。
这些注释以HTML表格、逗号分隔值文件和RDF数据集的形式在线提供。每一行(HTML表格、逗号分隔值)包含5列,分别记录了从《数据保护指令》中的某一点到《通用数据保护条例》中对应点的引用、两者之间变化的性质、相应的XACML规则是否需要已扩展,以及一段描述性说明。变化的性质表示为以下之一:相同、已减少、轻微变化、完全变化和已扩展。对于XACML规则,当《数据保护指令》中没有XACML规则,但《通用数据保护条例》中的对应条款已发生变化时,使用标记“不适用”。当《通用数据保护条例》义务没有变化,或现有XACML规则足以应对该变化时,使用值“否”;而当需要修改XACML规则以满足义务时,则使用“是”表示。
为了使用GDPRtEXT将注释建模为RDF资源,我们创建了DPD的链接数据版本,为立法中的每个资源分配了URI,类似于GDPR链接数据资源。这些注释被表示为DPDToGDPR注释类的实例。属性DPD中的资源用于通过其URI引用DPD内的特定资源。类似地,属性GDPR中的资源用于引用GDPR中对应的资源。变更的性质通过属性变更类型定义,其值为义务变更类的实例,该类定义了已扩展、相同、已减少、完全变更以及轻微变更等实例。类似地,XACML规则的变更被定义为一个属性,其值为是、否和不适用之一,这些值被定义为XACML规则变更类的实例。注释通过RDFS:注释属性进行定义。以下示例展示了DPD与GDPR义务之间的此类链接,见清单3-1。
@prefix gdpr: <http://purl.org/adaptcentre/openscience/resources/GDPRtEXT#>.
@prefix dpd: <http://purl.org/adaptcentre/openscience/resources/DPD#>.
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#>.
dpd:mappingrule6 a dpd:DPDToGDPR_Annotation;
dpd:hasChange dpd:ChangeExtended;
dpd:hasXACMLChange dpd:XACMLNoChange;
dpd:resourceInDPD dpd:Article7-a;
dpd:resourceInGDPR gdpr:Article6-1-a;
rdfs:comment "added consent given to...".
清单3-1。与个人数据处理和同意相关的数据保护指令(DPD)和通用数据保护条例(GDPR)之间的义务关联
4 相关工作
GDPRtEXT词汇表的创建受到了巴尔托里尼和穆图里在基于通用数据保护条例构建其数据保护本体时所做工作的启发[2,3]。他们本体的目的是对控制者为遵守通用数据保护条例所需履行的要求和义务进行建模。为此,他们的本体定义了若干属性和‘规则’,以及合规概念的类等价性。相比之下,GDPRtEXT不包含任何推理,而是使用简单知识组织系统提供有用术语的定义。这体现了两种方法在范围上的差异以及所涉及工作的复杂性不同。
巴尔托里尼的本体基于《通用数据保护条例》草案,因此与已发布(最终)版本存在一些细微的不一致。此外,作者称该本体仍处于早期阶段的初步工作。尽管他们对类和推理的使用在确定合规性方面可能具有一定的价值,但GDPRtEXT采取了更为通用的方法,旨在提供一种引用《通用数据保护条例》中特定概念的方式,从而使得两种方法可以结合使用。
将法律义务表达为可机器处理的一组规则,可使自动化系统能够建模以实现合规。一种近期方法使用开放数字权利语言(ODRL²²[1])将通用数据保护条例(GDPR)的义务建模为机器可读的规则。该模型基于31条条款构建了一个包含313个节点和810条定义的边的图,以表达义务之间的关系。本工作的目标是创建一个针对通用数据保护条例(GDPR)的合规检查工具。通过这些关系,义务层级被表示为它们之间的依赖关系。这些义务被分为核心义务以及依赖于核心义务的子义务。通过这种方式共识别出48项义务以及105项依赖的子义务。已发表的论文包含了条款之间关系的示意图,但未提供访问有关义务数据的方式。
基于义务将GDPR条款相互链接的方法,原则上与本文所述方法相似,并展示了创建通用数据保护条例链接数据版本的好处。利用GDPRtEXT提供的概念集合,可将定义的义务与其相应的通用数据保护条例文本进行关联,从而在使用和文档记录中实现信息的整合。
5 应用与社区效益
信息与知识系统及合规解决方案领域中法律本体的应用实例由[11,14,17]描述。第4节所述的数据保护本体的出版物[3]提供了在信息检索、从《数据保护指令》向《通用数据保护条例》过渡、自动分类与摘要、问答系统、决策支持与决策制定以及自主代理系统等领域的应用。
链接数据的优势此前已有记录[4,22],并且同样适用于数据保护指令和通用数据保护条例等法律法规。本文讨论了GDPRtEXT在整合相关研究方面所提供的优势,重点关注合规解决方案。
我们以在上一节中描述的工作为例,该工作旨在将通用数据保护条例的义务建模为可机器处理的ODRL规则,用于基于合规的系统。这项工作描述了通用数据保护条例义务之间的依赖关系,这些依赖关系进一步延伸为从这些义务建模出的ODRL规则之间的相同依赖关系。这导致了一种义务的层次化模型,其中一条规则的合规依赖于其所有子规则的合规。
考虑一个组织或研究人员,希望利用这些规则来增强其现有的合规系统。在这种情况下,两种解决方案很可能都通过文本或某种内部引用形式来指向通用数据保护条例。为了整合这两种方法并使其相互兼容,必须对其中一种或两种进行修改,修改的程度和范围取决于系统的复杂性。此外,针对特定义务从不同系统中比较合规情况时,可能再次涉及使用基于文本或仅限于该特定系统的内部引用形式,而这种形式可能是孤立的且非机器可读的。
如果存在一种通用形式,可用于指代所需的概念或义务,那么信息整合的任务将显著简化。在上述用例中,ODRL规则及其他系统可以通过GDPRtEXT提供的相同统一资源标识符来引用具体的通用数据保护条例义务。这使得在处理相同义务的系统之间能够以一致的方式链接相关信息,从而提供整合的合规结果。
此用例可扩展至数据主体、数据控制者、数据处理者和数据保护机构等实体之间的通信。由于涉及与不同实体交互的多个系统,这些实体之间交换的信息变得日益复杂。通过采用描述通用数据保护条例的统一基线(例如GDPRtEXT所提供的基线),有助于整合这些实体之间的合规相关信息。
GDPRtEXT关联并公开了通用数据保护条例,这是一份重要的法律文件。因此,确保该资源持续存活并可访问,对于社区的使用至关重要。目前,该资源由都柏林圣三一学院在其虚拟机集群上托管,并由专门的系统管理员团队进行管理。此外,由于GDPRtEXT使用永久网址(通过purl.org)来解析资源的实际URL,因此可以在不改变其对外暴露方式的情况下将资源迁移至其他位置。尽管我们计划继续维护该资源,但如果未来有必要,这种方式也使得资源可以转移给其他维护者或迁移到Github等社区托管服务。该资源的一份副本已在Datahub和Zenodo等托管站点上镜像,以提供额外的访问途径。
(a)
(b)
图3. (a, b) 使用SKOS在GDPRtEXT下定义的术语
6 结论和未来工作
本文提出了通用数据保护条例文本扩展(GDPRtEXT),该扩展利用欧洲出版局发布的欧洲立法标识符(ELI)本体,将通用数据保护条例(GDPR)以链接数据形式发布。所生成的数据集使用DCAT和VOID词汇表进行发布,包含用于官方发布的分发版本、一个带有注释的在线版GDPR文本(使用片段标识符指向各个具体条款)、以及多种RDF格式的序列化版本。该数据集采用CC-by-4.0许可证发布,并在Zenodo²³和Datahub²⁴上提供,具有数字对象标识符(DOI)。我们已将GDPRtEXT提交至data.gov.ie²⁵作为建议数据集,以便被欧盟开放数据门户索引²⁶。该数据集包含一个SPARQL端点,并通过Pubby提供前端访问。GDPRtEXT还提供了一个SKOS词汇表,用于定义GDPR中的术语和概念。本文以数据保护指令(DPD)为例,展示了相关法律法规的链接方法,并复用了基于可扩展访问控制标记语言(XACML)建模义务的现有工作。同时,我们也讨论了GDPRtEXT对社区的应用价值和潜在益处。
GDPRtEXT是一个持续进行的项目,我们积极寻求来自社区的建议以及支持和指导²⁷。关于未来工作,我们计划改进文档,使其对语义网领域之外的社区更加易于理解。为此,我们正在探索构建一个概念化模型,用于与同意、来源、数据共享和合规相关的通用数据保护条例元数据的文档化和传播。
目前,在线网页显示的通用数据保护条例链接数据版本仅展示其文本。通过使用JavaScript以及网络注释数据模型²⁸,可以显示与特定条款或要点相关联的附加信息。这可用于为通用数据保护条例创建一个丰富的界面,以交互方式过滤或显示信息。与通用数据保护条例一同显示的注释示例包括合规状态报告和法律说明,这些内容展示了与履行特定义务相关的信息。
链接数据的原则只有在所涉及的资源之间(或所有资源之间)存在链接时才能发挥作用。因此,我们计划将GDPRtEXT与通用数据保护条例相关的研究工作结合使用,例如欧洲隐私印章(EuroPriSe)²⁹,这是一个为通用数据保护条例合规提供认证和印章的组织。EuroPriSe所采用的标准基于将通用数据保护条例的要求转化为可在审计或认证过程中回答的问题。因此,这些问题基于通用数据保护条例规定的义务,而对这些问题的回答则决定了对这些义务的合规情况。这正是一个GDPRtEXT可用于链接EuroPriSe认证中的相关信息,并将其与在通用数据保护条例合规领域开展的类似研究进行比较的场景。
²³ https://doi.org/10.5281/zenodo.1146351
²⁴ https://datahub.ckan.io/dataset/gdprtext
²⁵ https://data.gov.ie/dataset/suggest/a5f365f6-719f-4eab-9bfe-4d494aeb31ee
²⁶ http://data.europa.eu/euodp/
²⁷ https://opengogs.adaptcentre.ie/harsh/GDPRtEXT/issues
²⁸ https://www.w3.org/TR/annotation-model/
²⁹ https://www.european-privacy-seal.eu
19

被折叠的 条评论
为什么被折叠?



