基于词嵌入的文本语义隐写分析
1. 引言
传统方法将单词视为原子单位,难以发现同义词与其上下文之间的关系,如同独热表示法。近年来,出现了许多有效的词嵌入方法,如 word2vec、fasttext 和 wordRank 等,用于在向量空间中描述单词之间的语义关系。然而,同义词替换不仅会导致统计失真,还会造成语义失真。为分析 SS 隐写术,提出了一种新的隐写分析方案,通过提取基于词频的统计特征和基于 word2vec 的语义特征,实验验证了该方法在不同嵌入率下的有效性。
2. 相关工作
2.1 Xiang 等人的特征
- 定义相关概念
- 同义词集(synset) :具有相似含义的一组单词,其维度是所含同义词的数量。例如,[Cow, Cattle] 是一个维度为 2 的同义词集。
- 同义词的属性对 :定义为其在同义词集中的位置和同义词集的维度,用有序对 < pos, dim > 表示,其中 pos∈{0, 1, …, dim - 1}。
- 属性对的相对频率 :在文本中属性对 < j, k > 的相对频率 p(j, k) 由公式 (p(j, k) = \frac{f(j, k)}{\sum_{i = 0}^{k - 1} f(i, k)}) 给出,其中 f(j, k) 是 < j, k > 在文本中出现的总次数,(\sum_{i = 0}^{k - 1} f(i, k)) 表示文本中
超级会员免费看
订阅专栏 解锁全文
47

被折叠的 条评论
为什么被折叠?



