化学结构集的数字水印技术
1. 引言
化学结构本质上是三维的,但大多数结构数据库仅将其存储为平面图形。在许多科学研究中,如药物开发,化合物的三维结构是决定其应用潜力的重要因素。确定三维原子坐标可以通过实验技术,但成本高昂。也有各种精度级别的计算方法,以结构图形或粗略的三维结构近似为输入来计算坐标。对于包含数十万分子的大型数据集,量子化学或全优化力场方法因计算成本过高而不可用,而采用复杂规则驱动启发式的模型构建器可以避免昂贵的优化,但开发这类程序困难且投资大,商业购买价格高。因此,计算得到的结构数据具有价值,数据所有者希望加强数据版权保护,对结构数据进行可靠标记和识别十分必要,数字水印技术可作为一种解决方案。
数字水印技术近年来在多媒体数据(如音频、图像或视频数据)领域得到了深入研究。大多数盲水印技术(水印检测器无法访问原始数据)基于扩频技术,但最近提出了更强大的技术,如SCS(标量科斯塔方案)水印技术,适用于多种数据特征,因此用于将水印嵌入分子数据。
2. SCS水印技术
2.1 基本原理
将数字水印视为一个通信问题。水印编码器根据水印消息 $m$(有时也称为“有效负载”)和宿主数据 $x$ 生成合适的水印序列 $w$,并将其添加到宿主数据中以生成水印数据 $s$,需确保 $x$ 和 $s$ 之间的失真可忽略不计。攻击者可能会将水印数据 $s$ 修改为数据 $r$ 以破坏水印通信,攻击仅受 $x$ 和 $r$ 之间失真的限制。最后,解码器从接收到的数据 $r$ 中确定嵌入水印消息的估计值 $\hat{m}$,编码器和解码器的设计应使 $\hat{m} = m$ 的概率很高。在盲水印方案中,解码器无法访问宿主数据 $x$,水印编码器和