当你为商业数据源付费时,究竟花钱买了什么?(上)

开发一款高效的网络安全产品需要访问广泛的互联网情报数据,包括实时和历史数据,可用于多种任务,例如资产发现、提供额外的威胁背景等。

评估域名的合法性和威胁等级需要详细的WHOIS信息。僵尸网络监测和基础设施映射建立在主动DNS查询基础上,而被动DNS数据则是恶意软件活动归属和威胁情报的基石之一。垃圾邮件和钓鱼防范则严重依赖关于新注册域名(NRDs)的数据。

此外,还有一些附加数据能够提供更多背景信息,例如SSL证书流,可更好的预防欺诈;或者许多用户利用IP地址块数据帮助进行威胁基础设施归属分析。

高质量且可靠的数据源会直接影响网络安全解决方案的性能:数据的质量和覆盖面越高,所使用的产品就越可靠,误报或漏报也就越少。

有些互联网基础设施数据是免费的,而另一些数据源则完全是商业性质的。因此,虽然可以自行构建和维护内部互联网情报来源,但这样往往涉及复杂的技术挑战和长期维护成本,这种投入可能难以合理化。

本文将深入剖析免费、商业以及自建三类互联网情报数据源的优劣势,助力用户在打造网络安全产品时做出更明智的选择。

1. 免费网络情报数据源的局限性

看起来,大多数信息,如DNS和WHOIS等,通过命令行提示就可以轻松获取。whois或nslookup命令提供了大量可在原型开发和早期产品阶段足够使用的数据。然而,它们存在很多限制,在大多数情况下,这些限制阻止了商业网络安全产品依赖它们以及其他免费数据源。

· 请求限速

网络安全产品如果依赖于这些命令,首先遇到的问题就是限速:注册商和DNS服务器通常会施加频率限制,如果检测到来自同一来源的大量查询,就会开始限速或阻止请求。于是在所需规模上执行whois或nslookup命令上变得困难,从而影响了威胁情报平台或外部攻击面管理平台等网络安全产品的正常运作。

· 查询速度

另一个问题是查询需要时间,因为没有本地缓存的数据,可能会导致产品运行缓慢,使用户不得不等待。对于某些使用场景,理想的情况是拥有一个WHOIS或DNS数据库,产品可以直接查询以加快处理速度。然而,免费的WHOIS或DNS情报并不以综合数据库形式提供——如果你想要这样的数据库,你的选择只有使用商业解决方案或自己构建一个。

· 协议变更

在WHOIS数据场景中,近期(且仍在进行中的)向RDAP协议的迁移为数据采集和处理带增加了额外的复杂性。尽管部分注册局(主要负责gTLDs)已经成功完成了RDAP的迁移并禁用了WHOIS 43端口,但还有一些注册局(主要负责ccTLDs)尚未正确实施RDAP,甚至有些根本不打算实施,仍然完全依赖于传统的WHOIS协议。

这意味着,从某些域名获取WHOIS信息时必须使用WHOIS,而另一些则需使用RDAP。因此,维护一个数据库,需明确每个域名使用何种查询方式。然而,这一情况是动态变化的,越来越多的注册局正在提供RDAP并关闭WHOIS服务,因此用户还需要持续更新该数据库。

相比之下,像WhoisXML API这样的商业服务提供商会持续监控这些变化,并实施自动回退机制等功能,确保无论注册局或注册商如何变动,用户都能成功获取所需数据。

· 缺乏历史数据

在多数情况下,网络安全产品会从历史WHOIS或DNS数据中受益。这些数据可用于揭示域名关系、追踪基础设施的所有权变更、归属恶意活动背后的威胁行为者,或发现实时数据中无法观察到的模式。

然而,无论WHOIS还是DNS协议,最初都并非为提供历史数据而设计。要获取历史数据,要么依赖多年累积数据的商业提供商,要么从零开始自行收集。后一种情况下,所拥有的历史深度将受限于用户开始收集数据的时间。

· 缺乏全球视角

就DNS而言,执行nslookup命令通常只能反映某一特定解析器或地理位置的解析结果。但由于CDN、负载均衡、地理屏蔽或恶意行为等因素,域名在全球不同位置可能会有不同的响应。若仅依赖于单点、局部的观察视角,可能会遗漏其他IP地址、隐藏威胁或区域性行为。

因此,依赖可查询的免费DNS数据并不足以支持全面的网络安全分析。此类问题通常只能通过全球多点探测器与被动DNS数据结合来解决。

· 数据不完整

以WHOIS数据为例,whois命令通常会向默认的WHOIS服务器发送基础查询 —— 通常是WHOIS Service,该服务器会返回对应TLD推荐的服务器地址。此后可能会继续查询推荐服务器,但往往不会进一步查询到注册商的WHOIS服务器,而后者才拥有大多数详细的域名信息。

这会导致获取的WHOIS数据不完整,甚至可能是过时的。有些注册局仅提供所谓的“有限WHOIS数据”,不含联系信息或所有者信息,而这些信息只在注册商处可得。理想情况下,需先查询注册局,再查询注册商,才能获得完整的WHOIS信息。这使得前文提到的请求限速问题更加严重,因为需要发送两倍的WHOIS请求,并分别解析两个阶段的结果。

而像NRD数据这样的信息更难获取。如果想获得完整的新注册域信息,可能需要向注册局申请每日或定期的zone file访问权限。通常情况下,某个注册局的授权只允许访问其所管理的TLD的新域名数据,并不能涵盖所有TLD。部分TLD甚至根本不提供每日zone file服务。若用户尝试自行部署DNS传感器来收集此类数据,不仅视角有限、数据不完整,还有可能混淆“新发现的域名”和“新注册的域名”。

· 缺乏实时访问

像NRD这样的数据,另一个重大挑战是缺乏实时可见性。能够在域名注册后的第一时间获取数据,对于及时发现新出现的威胁至关重要,因为许多钓鱼、欺诈和恶意软件活动往往在注册后数小时内最为活跃。如果无法实时访问NRD数据,安全产品将失去在威胁产生前将其拦截的机会。

即便用户获得了每日zone file的访问权限,这些数据也仅仅是“每日”而非“实时”。若想实现真正的实时可见性,通常需依赖具有注册局特权访问、DNS活动实时监测,或实时的证书透明日志追踪能力的商业解决方案 —— 而这些是免费数据源无法提供的。

02 自建互联网情报数据源的利与弊

鉴于免费的互联网基础设施数据源具有局限性,下一步的合理选择便是考虑建立并维护专有的内部数据采集系统。

的确,这样做能让用户对其数据、来源、时效性、格式以及在安全产品中的集成拥有完全控制权。然而,尽管好处显而易见,但也伴随着显著的挑战。

· 数据解析与标准化

互联网情报数据本质上来看是无结构且格式不一致的。例如,不同的WHOIS服务器输出格式各异。RDAP解决了部分这一问题,其输出的是标准化的JSON格式。然而,由于RDAP支持注册局特定的扩展,并包含可选字段,字段名称和结构在不同注册局间仍略有差异。DNS记录也因解析器位置和配置的不同而存在微妙差异。

将这些数据解析并标准化为一致、可用的数据源是一项复杂且消耗巨大资源的工作 —— 尤其是在注册局的政策、格式和标准不断演变的背景下,处理NRD数据时显得尤为困难,不同来源间的差异更大。

· 复杂性与成本

内部数据源常被视为商业数据源的“低成本替代方案”。但实际上,情况正好相反:在内部建立可靠的互联网情报源,需要投入大量的工程资源、持续维护和资金投入。

例如,维护一个全球DNS传感器网络、处理大量WHOIS和RDAP查询、或大规模接入证书透明日志等任务,都极其复杂且依赖重型基础设施。这些成本不仅包括初期部署,还包括后期服务器、存储、带宽以及最关键的数据工程师和威胁分析师等人员成本。

上表列出了建立并维护内部互联网情报体系每年大致的成本范围

注:开发并维护内部数据源,每年可能耗资数百万美元。而相比之下,商业数据源的年订阅成本则从几千美元(基础版数据)到10万–25万美元(高级版数据)不等。相较之下,后者的投入可谓极具性价比。

· 有限的历史数据

构建内部数据源的另一大难题是:一开始根本没有历史数据可用,只能从系统部署之时起开始积累。这意味着,在最初几个月甚至几年时间里,内部数据都缺乏基础设施映射、威胁行为归属或趋势分析所需的时间维度。

通过多年的等待以积累历史深度,在大多数业务场景下显然是不可行。因此,如需掌握尚未具备的历史数据,商业数据源仍是唯一可行的选择。

· 偏离构建产品核心

最后(也是最关键的一点):开发和维护内部互联网情报系统很容易让团队偏离产品本身的核心使命。产品和工程团队可能会将主要精力投入到解决数据采集与处理问题上 —— 而这正是商业数据服务商的专业所在 —— 从而忽视了真正能为产品带来市场竞争力的功能开发。

互联网情报收集本身就是一项完整的产品与运营工程,而将注意力分散到此类工作上,可能会延缓产品上市时间、积累技术债务、削弱团队资源。

内部数据源在某些特定情况下仍具有价值,需要注意的是,它并不是商业数据的“低价替代品”。更准确地说,当市面上没有能满足用户需求的商业产品时,内部数据源才是适合的选择。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值