16、新闻文章收集与分类系统解析

最新推荐文章于 2025-08-04 09:35:25 发布

uran

最新推荐文章于 2025-08-04 09:35:25 发布

阅读量45

点赞数

CC 4.0 BY-SA版权

分类专栏：解读《信息系统安全与隐私》精选论文文章标签：新闻文章收集分类系统 SLAP

本文链接：https://blog.youkuaiyun.com/uran/article/details/149367839

解读《信息系统安全与隐私》精选论文专栏收录该内容

29 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

新闻文章收集与分类系统解析

1. 新闻文章收集

SLAP 系统旨在从在线新闻文章中收集人类可读文本，随后对这些文本进行分类、归因，并呈现给安全分析师。为达成这一目标，SLAP 提供了 Scrape 单元。该单元包含一个自动化的抓取器，用于从新闻网站收集新闻文章。相较于在整个互联网上进行爬行的爬虫，这种针对性的抓取方式更为有效，因为从 HTML 网站中提取人类可读文本并非易事，还需将其与广告等内容区分开来。

为避免不准确地收集人类可读文本，在选择文章来源时设置了以下约束条件：
- 媒体：为实现文章的自动收集和评估，来源仅限于数字媒体。
- 语言：鉴于自然语言处理、安全研究和计算机科学领域目前对英语的偏好，重点关注英语文章，假设有关新泄露事件的相关文章至少会有英文翻译。
- 可访问性 ：来源必须可自由访问，不受付费墙、验证码查询或审查等限制。虽然这些技术障碍可以克服，但会增加额外成本，不利于概念验证。
- 重要性 ：来源应具有重要的覆盖范围或专注于 IT 安全领域，以确保良好的覆盖度或高特异性。

会员秒杀 ¥9.9 重磅福利

超级会员免费看