16、新闻文章收集与分类系统解析

新闻文章收集与分类系统解析

1. 新闻文章收集

SLAP 系统旨在从在线新闻文章中收集人类可读文本,随后对这些文本进行分类、归因,并呈现给安全分析师。为达成这一目标,SLAP 提供了 Scrape 单元。该单元包含一个自动化的抓取器,用于从新闻网站收集新闻文章。相较于在整个互联网上进行爬行的爬虫,这种针对性的抓取方式更为有效,因为从 HTML 网站中提取人类可读文本并非易事,还需将其与广告等内容区分开来。

为避免不准确地收集人类可读文本,在选择文章来源时设置了以下约束条件:
- 媒体 :为实现文章的自动收集和评估,来源仅限于数字媒体。
- 语言 :鉴于自然语言处理、安全研究和计算机科学领域目前对英语的偏好,重点关注英语文章,假设有关新泄露事件的相关文章至少会有英文翻译。
- 可访问性 :来源必须可自由访问,不受付费墙、验证码查询或审查等限制。虽然这些技术障碍可以克服,但会增加额外成本,不利于概念验证。
- 重要性 :来源应具有重要的覆盖范围或专注于 IT 安全领域,以确保良好的覆盖度或高特异性。

基于这些约束条件,选定的新闻文章网站如下表所示:
| 网站名称 | 网址 |
| — | — |
| Comodo | https://blog.comodo.com |
| GBHackers | https://gbhackers.com/category/data-breach/ |
| HackRead | https://www.hackr

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值