新闻文章收集与分类系统解析
1. 新闻文章收集
SLAP 系统旨在从在线新闻文章中收集人类可读文本,随后对这些文本进行分类、归因,并呈现给安全分析师。为达成这一目标,SLAP 提供了 Scrape 单元。该单元包含一个自动化的抓取器,用于从新闻网站收集新闻文章。相较于在整个互联网上进行爬行的爬虫,这种针对性的抓取方式更为有效,因为从 HTML 网站中提取人类可读文本并非易事,还需将其与广告等内容区分开来。
为避免不准确地收集人类可读文本,在选择文章来源时设置了以下约束条件:
- 媒体 :为实现文章的自动收集和评估,来源仅限于数字媒体。
- 语言 :鉴于自然语言处理、安全研究和计算机科学领域目前对英语的偏好,重点关注英语文章,假设有关新泄露事件的相关文章至少会有英文翻译。
- 可访问性 :来源必须可自由访问,不受付费墙、验证码查询或审查等限制。虽然这些技术障碍可以克服,但会增加额外成本,不利于概念验证。
- 重要性 :来源应具有重要的覆盖范围或专注于 IT 安全领域,以确保良好的覆盖度或高特异性。
基于这些约束条件,选定的新闻文章网站如下表所示:
| 网站名称 | 网址 |
| — | — |
| Comodo | https://blog.comodo.com |
| GBHackers | https://gbhackers.com/category/data-breach/ |
| HackRead | https://www.hackr
超级会员免费看
订阅专栏 解锁全文
37

被折叠的 条评论
为什么被折叠?



