单文档术语关联推理模型与网站安全风险评估方法
在信息处理和网络安全领域,有两个重要的研究方向值得关注,一是单文档中重要词汇和句子的提取,二是网站遭受网络钓鱼攻击的安全风险评估。下面将详细介绍相关的方法和实验结果。
单文档术语关联推理模型
- 术语频率与权重 :在单文档分析中,$ijf$ 表示术语 $j$ 在句子 $i$ 中的出现频率,$w$ 是之前模型中提到的权重。这个概念可用于文档总结,依据句子的重要性对其进行排序。
- 实验数据 :使用了与米兰飞机坠毁事件相关的 CST 数据集,该数据集包含多个单文本,针对单文档进行分析。
词汇增益(Gain of Words,GOW)
- 作用 :能消除无用词汇,同时保留可能的重要词汇,包括通过命名实体提取器获取的实体。
- 实验对比 :随机从文件中选取十个词汇,对比了 Salton 术语重要性度量方法和 GOW 方法的结果。
- Salton 方法 :对于某些词汇给出有意义的结果,显示出负判别值,表明这些词汇是劣质术语,但无法区分优质词汇,表格中的零值表示无法识别这些术语。
- GOW 方法 :克服了上述缺点,计算得到的增益值有助于区分无用、有用和不太有用的词汇。增益值很大时,表明词汇无用。
超级会员免费看
订阅专栏 解锁全文
807

被折叠的 条评论
为什么被折叠?



