数据丢失防护中的文本分类与ISP网络隐私保护异常检测
在当今数字化时代,数据安全和网络安全是至关重要的议题。数据丢失防护(DLP)中的文本分类以及互联网服务提供商(ISP)网络中的异常检测,都是保障数据和网络安全的关键环节。
数据丢失防护中的文本分类
在数据丢失防护领域,文本分类是一项重要的技术。以往的研究中,有人通过纳入主题下位词和同义词,或者在主题空间上执行潜在语义分析(LSA)来改进文本分类。也有人利用维基百科来确定文本之间的相关性,特别是短文本。然而,目前还没有人明确研究使用维基百科来扩充训练语料库。
传统的仅基于企业文档来训练分类器的简单方法,会导致在处理不相关文档时出现较高的误报率,在实际应用中的表现不佳。为此,提出了一种名为“补充与调整”的新颖技术,该技术显著降低了与核心业务功能无关文档的误报率。
以下是补充与调整技术对不同类型误报率和漏报率的影响:
| 指标 | 详细信息 |
| ---- | ---- |
| 公开文档误报率 | 补充训练实例后有不同程度的变化 |
| 机密文档漏报率 | 受补充实例影响 |
| 命名实体误报率 | 补充实例对其有作用 |
在未来的研究中,计划将这种文本分类方法部署到现有的私有、企业和政府网络中,进一步研究其有效性。同时,还希望将该方法扩展到处理加密和多媒体内容。目前的工作仅考虑了文档的内容来做出决策,未来将研究与内容相关的元数据如何用于改进分类。另外,由于并非所有机密文档都是用英语编写的,未来会扩展私有语料库,纳入非英语来源的文档,并应用相应的语言处理技术来处理这些文档,同时调整补充语料库以适应命名实体特征的实际表现。
超级会员免费看
订阅专栏 解锁全文
749

被折叠的 条评论
为什么被折叠?



