4、单文档术语关联推理模型与网站安全风险评估方法

单文档术语关联推理模型与网站安全风险评估方法

在信息处理和网络安全领域,有两个重要的研究方向值得关注,一是单文档中重要词汇和句子的提取,二是网站遭受网络钓鱼攻击的安全风险评估。下面将详细介绍相关的方法和实验结果。

单文档术语关联推理模型
  • 术语频率与权重 :在单文档分析中,$ijf$ 表示术语 $j$ 在句子 $i$ 中的出现频率,$w$ 是之前模型中提到的权重。这个概念可用于文档总结,依据句子的重要性对其进行排序。
  • 实验数据 :使用了与米兰飞机坠毁事件相关的 CST 数据集,该数据集包含多个单文本,针对单文档进行分析。
词汇增益(Gain of Words,GOW)
  • 作用 :能消除无用词汇,同时保留可能的重要词汇,包括通过命名实体提取器获取的实体。
  • 实验对比 :随机从文件中选取十个词汇,对比了 Salton 术语重要性度量方法和 GOW 方法的结果。
    • Salton 方法 :对于某些词汇给出有意义的结果,显示出负判别值,表明这些词汇是劣质术语,但无法区分优质词汇,表格中的零值表示无法识别这些术语。
    • GOW 方法 :克服了上述缺点,计算得到的增益值有助于区分无用、有用和不太有用的词汇。增益值很大时,表明词汇无用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值