基于GPT的命名实体识别(NER)数据多样化与高质量增强及PowerShell脚本反混淆研究
基于GPT的NER数据增强
在命名实体识别(NER)任务中,数据的质量和多样性对模型的性能至关重要。为了提高NER模型的性能,研究人员提出了一种名为DHQDA的新型模型,用于NER数据增强,以减少生成数据中的噪声并生成多样化的数据。
-
模型原理
- 在第 $l$ 层,给定输入序列 $X_l = {x_1, …, x_m}^T$,首先计算查询(query)、键(key)和值(value):
[
Q_l = X_lW_l^Q, K_l = X_lW_l^K, V_l = X_lW_l^V
]
其中 $W_l^Q, W_l^K, W_l^V \in R^{d_{model} \times d_{model}}$。 - 然后,将提示生成器生成的提示参数与预训练模型的键和值进行拼接:
[
Attention_l = softmax\left(\frac{Q_l[K_l; \theta_l^k]^T}{\sqrt{d}}\right)[V; \theta_l^v]
]
通过注意力机制的引导,可以使冻结的预训练模型的输出分布适应训练目标。
- 在第 $l$ 层,给定输入序列 $X_l = {x_1, …, x_m}^T$,首先计算查询(query)、键(key)和值(value):
-
数据处理
- Squence2BIO和过滤 :最后,需要将生成的数据转换为指定格式(如BIO),并从最终生成的数据中