Jackrabbit之DataStore

理解Jackrabbit存储体系中的DataStore与PersistenceManager

最新推荐文章于 2024-08-07 09:47:52 发布

原创最新推荐文章于 2024-08-07 09:47:52 发布 · 5.2k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#数据库 #存储 #postgresql #sqlserver #分布式存储 #stream

Jackrabbit 专栏收录该内容

5 篇文章

订阅专栏

本文深入探讨了在Jackrabbit存储体系中，DataStore与PersistenceManager的作用及工作原理，解释了文件数据如何被存储和管理，以及它们之间的区别与联系。同时，文章还介绍了预定义的DataStore类型、配置方式、接口API以及垃圾回收机制，旨在帮助开发者更好地利用这些工具优化存储效率。

在Jackrabbit存储体系中，PersistenceManager主要用来存储节点的基本属性信息，而二进制数据信息(更确切的说是属性类型为jcr:data的数据，以下称之为文件数据)是通过DataStore来存储的
每个文件数据的ID为它的数字签名，这样便确保了同一个的文件在DataStore中只存在一份拷贝，而在PersistenceManager中，相应的JCR节点只是存储了文件数据的引用ID，而不是它的数据内容，这样在执行节点拷贝操作时，便可以节省磁盘和内存的使用空间。
同时，DataStore还可以在多个Repository之间实现共享，执行数据备份和恢复等操作。
除了优势之外，DataStore也存在相应的局限性：存储在DataStore中的数据是不可改变的
包括：
在删除JCR节点的时候，DataStore所对应的文件数据并不会级联删除
对文件数据执行更新操作时，Jackrabbit会将新的文件数据上传到DataStore，然后更新该节点的文件数据引用ID，而之前所引用的文件数据在DataStore中依然存在
所幸，jackrabbit针对DataStore提供了垃圾回收机制，可将不使用的数据文件清除。

预定义DataStore：

Jackrabbit预定义了以下几种类型的DataStore供开发人员使用，分别是：
1.File Data Store(org.apache.jackrabbit.core.data.FileDataStore)
将文件数据存储到本地文件系统上
2.Database Data Store(org.apache.jackrabbit.core.data.db.DbDataStore)
将文件数据存储到数据库中
就访问效率来看，FileDataStore的性能要高于DBDataStore
除此之外，开发人员还可自定义DataStore，来引入额外的存储需求，如：使用HDFS来实现文件数据的分布式存储
要想实现自定义的DataStore，首先需要清楚它的工作流程：
在使用Property.setValue(InputStream stream)方法为节点指定文件数据时，Jackrabbit会首先检测该文件数据的大小，如果大于指定域值(通过minRecordLength配置)，将数据存储到DataStore中去，然后在PersistenceManager中保留该文件数据的引用ID，否则，直接将文件数据存储到PersistenceManager体系中
除此之外，还要熟悉DataStore的接口API，及其声明的方法：
org.apache.jackrabbit.core.data.DataStore
getRecordIfStored(DataIdentifier identifier):获取指定identifier对应的文件数据记录,如果记录不存在则返回null
getRecord(DataIdentifier identifier):获取指定identifier对应的文件数据记录,如果记录不存在则抛出异常
addRecord(InputStream stream):添加文件数据到DataStore中
getAllIdentifiers():获取所用文件数据的唯一标识(数字签名)
init(String homeDir):初始化DataStore环境
close();关闭DataStore
getMinRecordLength():获取DataStore能够存储的文件数据的最小值

DataStore配置：

在repository.xml文件中，DataStore通过如下xml配置：
1.FileDataStore

<DataStore class="org.apache.jackrabbit.core.data.FileDataStore">
    <param name="path" value="${rep.home}/repository/datastore"/>
        <param name="minRecordLength" value="100"/>
<DataStore/>

path:为datastore的根目录
minRecordLength:为文件数据的最小值
2.DbDataStore

<DataStore class="org.apache.jackrabbit.core.data.db.DbDataStore">
        <param name="url" value="jdbc:postgresql:test"/>
        <param name="user" value="sa"/>
        <param name="password" value="sa"/>
        <param name="databaseType" value="postgresql"/>
        <param name="driver" value="org.postgresql.Driver"/>
        <param name="minRecordLength" value="1024"/>
        <param name="maxConnections" value="3"/>
        <param name="copyWhenReading" value="true"/>
        <param name="tablePrefix" value=""/>
        <param name="schemaObjectPrefix" value=""/>
</DataStore>

url:数据库连接地址
user:数据库用户名
password:数据库连接密码
driver:数据库驱动类
minRecordLength:文件数据最小值
copyWhenReading:默认为true，在执行read操作时，会首先拷贝文件数据到临时文件中，供并发读取
如果指定为false，则对文件数据的访问操作是顺序读取
maxConnections:数据库所允许的最大并发连接数
databaseType:数据库类型，DbDataStore主要支持以下几种类型的数据库，分别是：
db2, derby, h2, mssql, mysql, oracle, sqlserver