本文综述了中文文本信息隐藏的研究进展,将已有的算法分为三类,分别为:
1.基于文本图像的算法
2.基于文本格式的算法
3.基于文本内容的算法
分别对比分析了原理,嵌入容量和抵抗攻击能力。
1.分类和分析:如图1所示

2.现有算法分类与分析
2.1 基于文本图像的算法
2.1.1普通文本应用:
例如ding等提出的算法,通过调整行与行之间单词间距,使之呈现正弦函数特征,再将水印信息编码在正弦曲线内
2.1.2 打印扫描应用:
反转部分字符的黑色点数,来补偿嵌入部分的修改,使整篇字符的平均黑色点数不变,从而达到嵌入水印的目的
2.2基于文本格式的算法
2.2.1文本间距:
如字移编码和行移编码算法,是指以某字符的相邻字符为参照,在人眼不可感知的前提下,将该字符向左或向右移动一定的距离,达到嵌入信息的目的
2.2.2 字符编码:
已有算法通过字符编码的奇偶性嵌入秘密信 息,或者将字符编码表中的不可见字符插入文本中
2.2.3 文件格式:
如有的算法利用 word 文档格 式中未使用的空间嵌入数据,从而在抵抗文本复制 攻击方面具有较高的稳健性
2.3 基于文本内容的算法
基于文本内容的信息隐藏算法重点分析文本 内容,挖掘文本内容特征,构造合适的算法将秘密信息嵌入其中
2.3.1 基于语法方法
如一种基于句子长度的文本信息隐藏算法。该算法以不改变句子原意为前提,对句子进行句式变换,通过改变句子的长度嵌入水印信 息。
2.3.2 基于语义方法
如基于同义词替换的方法用于中文文本。水印在嵌入的过程中用二次剩余理论先选取适合替换的句子,再选择句中需要被替换的同义词实现信息隐藏。
2.3.3 基于汉语特征方法
如基于汉字偏旁的水印嵌入算法,算法筛选出具有左右结构的汉字,作为信息嵌入的载体,将水印信息转为二进制流,依次从文本中读取一个汉字:若获取的汉字非左右结构,那么将其完整输出;若获取的汉字具有左右结构且待嵌入为0 bit,同样也完整输出该汉字;如果当前汉字是左右结构且待嵌入为 1 bit,那么将该汉字拆成最基本偏旁输出;重复上述过程直至水印嵌完为止。
3.现阶段中文文本信息隐藏的主要问题及解决办法
3.1 问题
1.嵌入容量较小
2.稳健性较差
3.汉语结构复杂
3.2解决办法
1.提高容量
2.增强稳健性
问题
1.嵌入容量较小
2.稳健性较差
3.汉语结构复杂
3.2解决办法
1.提高容量
2.增强稳健性
3.挖掘汉语特点
本文概述了中文文本信息隐藏的三种主要算法:基于文本图像、格式和内容。探讨了各类算法的工作原理、嵌入容量和抗攻击性,并指出了当前面临的问题,如容量小和稳健性差。同时,提出了提高容量和增强稳健性的解决方案。
3108

被折叠的 条评论
为什么被折叠?



