17、基于文本分类的数据丢失预防

基于文本分类的数据丢失预防

1. 评估方法与数据集

为了进一步确保研究结果的可靠性,避免因输出文档生成方式的人为性影响结论,引入了第二套数据集及相关实验。

1.1 私有数据集

该数据集基于挪威国防研究机构(FFI)的内部技术报告库。收集了 10 份机密文档和 10 份非机密文档作为输出文档,这些文档的参考文献列表包含了机密和非机密的报告、笔记及会议论文。每份文档的参考文献数量在 5 到 17 之间,总共 166 条参考文献作为输入文档。
对每份文档及其参考文献提取文本内容,并采用与第一数据集相同的预处理流程,同时增加了自定义的单词过滤器,以去除标识安全标签的位置和领域特定标记,还从文本中移除了参考文献列表。

1.2 输入生成

此方法通过使用输出文档参考文献列表中的文档来近似输入文档集。假设输出文档的正确安全分类为原始文档上标注的分类,输入文档的安全分类也是其自身原本标注的分类。

2. 算法介绍

在实验中运用了信息检索和机器学习算法,并对每个算法进行了 5 折交叉验证和网格搜索,以找到可调参数的最优配置。

2.1 信息检索

在信息检索领域,可通过计算文档与查询字符串之间的相似度来搜索索引文档集合。在受控环境中,可利用输出/输入对的相似度检测输出文档的部分内容是否源自输入文档。
仅对可能导致文档被发布/泄露的情况(即数据集中的非机密文档)运行检测程序。预测安全标签的三步算法如下:
1. 计算输出文档与每个输入文档之间的相似度。
2. 将得分最高的输入文档的标签作为暂定标签。
3. 若暂定标签为非机密,

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值