35、知识图谱三元组分类与古巴旅游评论极性预测研究-优快云博客

本文链接：https://blog.youkuaiyun.com/peach/article/details/152632203

知识图谱三元组分类与古巴旅游评论极性预测研究

知识图谱负采样策略及实验

在知识图谱的研究中，负采样策略对于三元组分类任务至关重要。Pykeen负采样包含三种策略：
1. 均匀负采样（UNS） ：从已知的正三元组 ∈G 中，通过均匀随机地使用损坏头操作或损坏尾操作来生成损坏的三元组。
2. 伯努利负采样（BNS） ：基于伯努利概率分布实现。与UNS类似，从已知正三元组生成损坏三元组，但在损坏三元组时，根据关系的映射属性（如一对多、多对一或多对多）设置不同的替换头或尾实体的概率。如果关系是一对多，则更有可能替换头实体；如果是多对一，则更有可能替换尾实体，从而减少生成假阴性（FN）三元组的机会。
3. 伪类型负采样（PTNS） ：考虑与关系共现的实体。对于三元组，只考虑那些在与该关系的三元组中作为头或尾实体出现的实体来生成损坏的头实体。

为了生成高质量负（HQN）三元组，提出了良好负采样（GNS）策略。GNS旨在在PTNS的狭窄性和UNS的广泛性之间取得平衡。它包含BNS策略，根据关系的基数来损坏三元组，并使用轻量级本体公理（如关系域和范围、功能和逆关系、等价和不相交类）来生成HQN三元组。GNS是一种静态负采样方法，在模型训练期间仅根据本体公理生成一次负集，并检查测试三元组是否与背景本体知识一致。

GNS的形式定义

知识图谱 ：知识图谱G是形式为的有限三元组集合，其中 s ∈ I，p ∈ P，o ∈ I（如果 p ≠ rdf : type）；否则 o ∈ C。
本体：本体O是用某种描述逻辑（DL）表达的有限公理集，这里关注具有属性域、属性范围、不相交、功能属性、等价类、等价属性、逆和子类等公理的轻量级本体。
三元组损坏过程 ：在损坏三元组时，使用伯努利概率分布选择要替换的头或尾实体。对于头损坏，若 p ≠ rdf : type，则 s 和 s’ 的类型应等于关系的域；对于尾损坏，若 p ≠ rdf : type，则 o 和 o’ 的类型应等于关系的范围；否则有不同的条件。

以下是GNS生成负样本的算法：

Algorithm 1.1: Good negative sampling
1: Input: X dataset, E entities, R relations
2: Output: Ex positive and negative examples
/* Data initializations */
3: Data: Ex ←[] examples, Ri ←∅triple relation, Dom Ri ←∅relation domain,
Ran Ri ←∅relation range, Head or Tail ←”Head” ﬂag, Ei ←∅entity to corrupt,
new triple ←∅corrupted triple, good Neg Triple ←false ﬂag to validate
4: CALCULATE tph tail entities per head and hpt head entities per tail from X
5: R ←CALCULATE Bernoulli Probabilities through pr =
tph
tph+hpt
6: for triple in X do
7:
Ri ←Get Relation with Bernoulli Probability(triple)
8:
Dom Ri ←Get Domain of Relation(Ri)
9:
Ran Ri ←Get Range of Relation(Ri)
10:
Head or Tail ←Determine Which To Corrupt From Bern(Ri)
11:
if Head or Tail == ”Head” then
12:
while true do
13:
Ei ←Get New Entity To Corrupt(E)
14:
new triple ←Get New Triple with Corrupted Head(Ei)
15:
if new triple exist in X then
16:
continue
17:
end if
18:
good Neg Triple ←Validate Good Neg(new Triple, Dom Ri, X)
19:
if good Neg Triple == false then
20:
continue
21:
end if
22:
break
23:
end while
24:
add triple to Ex
25:
add new triple to Ex
26:
else
27:
while true do
28:
Ei ←Get New Entity To Corrupt(E)
29:
new triple ←Get New Triple with Corrupted Tail(Ei)
30:
if new triple exist in X then
31:
continue
32:
end if
33:
good Neg Triple ←Validate Good Neg(new Triple, Ran Ri, X)
34:
if good Neg Triple == false then
35:
continue
36:
end if
37:
break
38:
end while
39:
add triple to Ex
40:
add new triple to Ex
41:
end if
42: end for
43: return Ex

实验部分

在实验中，使用KG - BERT模型进行三元组分类任务。将GNS与UNS和PTNS进行比较，并在UNS和PTNS策略中也实现了BNS以进行更公平的比较。
- 数据集 ：使用FB13数据集，选取11082个三元组用于训练，2253个三元组用于测试。每个训练集（包括正三元组和负三元组）约有24000个三元组，测试集的类别平衡为50%。具体数据集统计如下表所示：
| 数据集 | R | E | 训练集 | UNS | PTNS | GNS | 测试(+) | 测试(-) |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| FB13 (FB13 reduced) | 13 | 89146 | 11082 | 13050 | 13050 | 13050 | 1128 | 1125 |

实验结果 ：
- 训练损失 ：训练KG - BERT模型30次，结果显示UNS产生的训练损失最小，因为它生成了大量低质量负（LQN）三元组，这些三元组容易分类，导致零损失。而基于语义的策略（如PTNS和GNS）生成更多HQN三元组，产生大于零的损失，有助于学习。具体训练损失如下表：
  | 数据集 | 第1轮训练损失 | 第2轮训练损失 | 第3轮训练损失 |
  | ---- | ---- | ---- | ---- |
  | UNS | 42.5166 | 10.2094 | 3.2385 |
  | PTNS | 161.7024 | 83.8646 | 45.7079 |
  | GNS | 170.2427 | 86.1006 | 45.5844 |
- 分类准确率 ：每个训练好的模型直接在测试集上进行测试，结果表明，使用GNS训练的KG - BERT模型在三元组分类任务中达到了最佳准确率。具体准确率和标准差如下表：
  | 数据集 | 准确率 | 标准差 |
  | ---- | ---- | ---- |
  | UNS | 0.5182 | 0.0045 |
  | PTNS | 0.8972 | 0.0041 |
  | GNS | 0.9013 | 0.0026 |

通过非参数测试（Friedman排名测试和Bonferroni - Dunn事后测试），发现GNS与UNS和PTNS策略存在显著的统计差异，验证了使用GNS训练的KG - BERT模型在三元组分类任务中比其他最先进的负采样策略具有更高的准确率这一假设。

古巴旅游评论极性预测

在古巴旅游领域，自然语言处理技术为分析游客评论提供了新的途径。随着网络数字平台的发展，人们可以表达对旅游服务和景点的看法。然而，评论文本具有高维、可变大小和复杂语义关系等特点，使得训练深度神经网络面临诸多挑战。

传统的训练方法基于目标函数的偏导数，如随机梯度下降（SGD）、Adam和AdamW，存在收敛到局部最小值的问题，影响最终模型的准确性。在自然语言处理中，元启发式算法被用于解决连续和离散优化问题，如遗传编程（GP）、粒子群优化（PSO）、蚁群优化（ACO）等，但这些进化算法的搜索算子不考虑优化问题变量之间的关系。

而分布估计算法（EDA）通过概率模型修改搜索算子，能够学习变量之间的依赖关系，有助于利用局部信息，且不需要传统的交叉和变异算子。

研究贡献

提出新数据集 ：从TripAdvisor上关于古巴酒店、旅馆和度假租赁的评论中编译了一个新的西班牙语数据集，用于极性预测。
提出混合方法 ：提出一种将AdamW与EDA相结合的混合方法，用于微调基于mT5的Transformer进行极性预测。

在处理文本分类问题时，由于其高维性，微调Transformer需要优化大量参数，导致训练过程计算成本高。此外，在线评论的极性分析存在数据不平衡的问题。该研究通过提出新数据集和混合方法，旨在解决这些问题，提高极性预测的准确性。通过对数据进行不同的预处理变体，并使用反向翻译处理数据不平衡问题，该混合方法结合反向翻译降低了基于mT5的Transformer在极性预测中的平均绝对误差。

知识图谱三元组分类与古巴旅游评论极性预测研究

知识图谱负采样策略及实验深入分析

在知识图谱的负采样领域，GNS策略的优势不仅体现在实验结果上，其背后的原理也值得深入探讨。

从理论层面看，GNS结合BNS策略根据关系的映射属性来调整替换实体的概率，这一做法是基于对知识图谱中关系特性的深刻理解。例如，在一对多的关系中，头实体往往具有更广泛的关联，替换头实体能更有效地生成有意义的负样本。而轻量级本体公理的引入，为生成高质量负样本提供了语义层面的约束。以关系域和范围公理为例，它确保了生成的负样本在语义上是合理的，避免了生成一些明显不符合逻辑的三元组。

从实践操作角度，GNS算法的实现步骤清晰且具有可操作性。以下是对GNS算法操作步骤的详细解析：
1. 数据初始化 ：输入数据集X、实体集E和关系集R，初始化一系列变量，包括存储正负样本的集合Ex、关系Ri、关系域Dom Ri、关系范围Ran Ri等。
2. 计算概率 ：从数据集X中计算每个关系的尾实体与头实体的比例（tph）和头实体与尾实体的比例（hpt），进而计算伯努利概率。
3. 遍历数据集 ：对于数据集中的每个三元组，通过伯努利概率选择关系Ri，获取其关系域和范围。
4. 确定替换实体 ：根据伯努利概率确定是替换头实体还是尾实体。
5. 生成负样本 ：如果替换头实体，随机选择一个新的实体Ei，生成新的三元组。检查新三元组是否已存在于数据集中，如果存在则继续选择新实体；同时验证新三元组是否为高质量负样本，如果不是则继续选择。直到满足条件为止，将原三元组和新生成的负样本添加到Ex中。如果替换尾实体，操作类似。
6. 输出结果 ：最终返回包含正负样本的集合Ex。

这个算法流程确保了生成的负样本既符合关系的语义约束，又具有一定的随机性，从而提高了负样本的质量。

古巴旅游评论极性预测方法解析

在古巴旅游评论极性预测的研究中，混合方法的提出是为了应对传统训练方法和进化算法的不足。

混合方法的优势

AdamW是一种基于梯度的优化算法，它在训练过程中能够快速收敛，但容易陷入局部最优。而EDA通过概率模型学习变量之间的依赖关系，能够更有效地探索搜索空间。将两者结合，能够充分发挥AdamW的快速收敛性和EDA的全局搜索能力。

具体操作步骤如下：
1. 数据预处理 ：对从TripAdvisor获取的评论数据进行预处理，包括去除噪声、分词、词干提取等操作。同时，使用不同的预处理变体进行对比实验，以找到最佳的预处理方式。
2. 处理数据不平衡 ：采用反向翻译的方法处理数据不平衡问题。例如，对于少数类样本，将其翻译成其他语言，再翻译回西班牙语，从而生成新的样本，增加少数类样本的数量。
3. 初始化模型 ：使用预训练的基于mT5的Transformer模型，并初始化AdamW优化器的参数。
4. 训练模型 ：在训练过程中，首先使用AdamW进行一定轮数的训练，使模型快速收敛到一个较好的初始状态。然后，引入EDA算法，通过概率模型生成新的参数组合，对模型进行微调。在每一轮训练中，根据模型的性能评估结果，更新EDA的概率模型。
5. 评估模型 ：使用测试集对训练好的模型进行评估，计算平均绝对误差等指标。通过不断调整训练参数和EDA的概率模型，优化模型的性能。

研究成果与展望

通过实验验证，该混合方法结合反向翻译有效地降低了基于mT5的Transformer在极性预测中的平均绝对误差，提高了极性预测的准确性。这一研究成果对于旅游行业的数据分析具有重要意义，能够帮助旅游企业更好地了解游客的需求和反馈，从而优化服务和产品。

未来的研究可以从以下几个方面展开：
- 拓展数据集 ：可以收集更多不同来源的旅游评论数据，扩大数据集的规模和多样性，进一步提高模型的泛化能力。
- 改进算法 ：可以对EDA算法进行改进，设计更复杂的概率模型，以更好地学习变量之间的依赖关系。
- 多模态融合 ：可以考虑将文本数据与其他模态的数据（如图像、音频）相结合，进行多模态的极性预测，从而获得更全面的信息。

综上所述，知识图谱的负采样策略和古巴旅游评论极性预测的研究都在不断探索新的方法和技术，以解决实际应用中的问题，为相关领域的发展提供了有价值的参考。

总结

本文围绕知识图谱的负采样策略和古巴旅游评论极性预测展开了研究。在知识图谱方面，提出的GNS策略通过结合BNS和轻量级本体公理，生成高质量负样本，在KG - BERT模型的三元组分类任务中取得了优于UNS和PTNS的结果。在古巴旅游评论极性预测方面，提出的新数据集和混合方法，有效地解决了数据不平衡和训练过程中的局部最优问题，提高了极性预测的准确性。这些研究成果不仅为相关领域的理论发展提供了新的思路，也在实际应用中具有重要的价值。

通过对这两个领域的研究，我们可以看到跨学科方法在解决复杂问题中的重要性。无论是知识图谱的语义分析还是旅游评论的极性预测，都需要综合运用数学、计算机科学、语言学等多学科的知识和技术。未来，随着技术的不断发展，我们有理由相信，在这些领域将会取得更多的突破和创新。