探索网络Cookie世界:从CCPA影响到自动化挑战
1. 桌面与移动设备的Cookie横幅检测
研究发现,与以往未考虑横幅检测或交互的工作相比,桌面和移动设备在网站访问方面具有更高的相似性。通过BannerClick工具检测发现,从桌面和移动设备访问网站时,检测到的横幅数量相近,具体比例如下:
| 地区 | 横幅检测比例 |
| ---- | ---- |
| 美国东部 | ≈21% |
| 德国 | 46% |
| 巴西 | 26% |
2. CCPA对第三方Cookie的影响
2.1 识别CCPA合规网站
加利福尼亚消费者隐私法案(CCPA)于2020年1月生效。为研究CCPA合规网站对第三方Cookie的处理方式,采用如下方法识别合规网站:CCPA覆盖的网站必须在其主页上包含一个显眼的超链接,文本为“Do Not Sell My Personal Information”(DNSMPI)。通过爬取分层Tranco列表,从不同地理位置识别包含该超链接的网站:
| 地理位置 | 含DNSMPI链接的网站数量 |
| ---- | ---- |
| 美国西部 | 39个 |
| 美国东部 | 29个 |
| 德国 | 21个 |
这表明用户的地理位置会影响DNSMPI链接的显示,甚至在美国不同地区也存在这种差异,例如有11个网站仅向来自加利福尼亚的客户端显示DNSMPI链接。
2.2 对比CCPA合规与非合规网站的第三方Cookie
为观察CCPA对第三方Cookie的影响,在美国西部(加利福尼亚)进行分析。将39个含DNSMPI链接的网站按Tranco排名分为三组(top - 100、1001 - 1100、9901 - 10k),并从相应排名组中随机选取相同数量的不含DNSMPI链接的网站进行对比。
每个网站爬取五次并记录第三方Cookie数量,结果显示:不含DNSMPI链接的网站(蓝线)设置的第三方Cookie数量低于含DNSMPI链接的网站(橙线)。例如,42%的非DNSMPI网站平均设置两个或更少的第三方Cookie,而相同比例的DNSMPI网站发送30个或更少的Cookie。对于跟踪Cookie,趋势与第三方Cookie相同。
进一步分析Tranco top - 10k网站,发现类似趋势,表明CCPA默认情况下对第三方Cookie没有积极影响,反而CCPA合规网站平均设置更多的第三方Cookie。此外,用户需要手动查找通常隐藏在网站页脚的DNSMPI链接并点击才能获得实际益处,在减少Cookie数量方面,CCPA似乎比GDPR或类似立法效果差很多。
2.3 横幅存在对第三方Cookie差异的影响
检查横幅存在是否会导致DNSMPI和非DNSMPI网站第三方Cookie差异,结果令人惊讶:DNSMPI网站显示横幅的可能性是非DNSMPI网站的两倍,但仍设置更多的第三方Cookie。
3. Cookie横幅自动化面临的挑战
3.1 现状与问题
自GDPR等隐私立法生效以来,Cookie横幅在网络上越来越普遍,且种类繁多。这不仅给研究目的的自动化检测和交互带来挑战,也阻碍了浏览器和扩展开发者以自动化方式有效与横幅交互。现有的自动化工具存在诸多问题,如依赖手动规则、无拒绝Cookie同意选项、不再维护等。
3.2 解决方案的困境
曾尝试提供如HTTP的“Do Not Track”头这样的通用易用机制来拒绝所有跟踪Cookie,但未被广告行业采用而被放弃。部署同意管理平台(CMPs)可作为应用开发者自动化横幅交互的标准化API,但许多CMP网站未正确实施这些标准化API,且热门网站几乎不存在CMPs,导致缺乏标准化。此外,许多Cookie横幅故意使人们难以拒绝所有Cookie,例如谷歌因未提供用户拒绝所有Cookie的选择而被罚款1.5亿欧元,并被迫更新其Cookie横幅。
3.3 浏览器厂商的举措
为改善用户隐私,浏览器厂商开始不同程度地阻止第三方Cookie:
- Mozilla于2019年引入“增强跟踪保护”,并朝着为每个网站提供完全隔离的Cookie存储方向发展。
- Apple于2020年默认阻止第三方Cookie。
- Google长期表示希望摆脱第三方Cookie,并提出了多种可能的替代方案。
然而,摆脱第三方Cookie可能并非用户跟踪的终结,因为本地存储、IndexedDB、Web SQL或浏览器指纹识别等技术可轻易替代第三方Cookie的功能。而且,像GDPR这样的隐私法规不仅限于Cookie,要求对任何共享的用户数据获得知情同意,因此即使底层技术可能改变,Cookie横幅未来仍可能普遍存在。
4. 研究的局限性
4.1 语言覆盖问题
横幅检测方法基于12种语言的词汇,可能无法检测使用其他语言的网站上的横幅。
4.2 浏览器差异
使用OpenWPM通过Firefox浏览器访问网站,不同浏览器(如Chrome或Safari)访问网站时,Cookie行为可能不同。
4.3 访问协议限制
仅关注HTTPS访问网站,虽然许多浏览器采用HTTPS优先方法且大多数网站支持HTTPS,但QUIC协议虽未广泛部署,但也是一种访问方式,研究未考虑。
4.4 跟踪Cookie分类
将第三方Cookie分类为跟踪Cookie时,依赖跟踪Cookie列表,为限制误分类,采用保守方法,因此识别的跟踪Cookie数量为下限。
4.5 移动版本加载问题
通过修改OpenWPM用户代理和屏幕尺寸获取网站移动版本,虽多数网站能显示移动版本,但部分网站仅通过这些简单更改不足以加载移动版本。
5. 相关研究概述
5.1 数据保护法律效果量化
不同数据保护法律(如欧盟的GDPR和加利福尼亚的CCPA)旨在规范Cookie使用,以往大量工作试图量化这些法律的效力。不同研究得出不同结论,如Dabrowski等报告欧盟用户比美国用户使用更少的持久Cookie,而Sanchez等认为美国在Cookie监管方面与欧盟类似。
5.2 网站合规性研究
为检查网站发布者是否遵守欧盟Cookie法律,Trevisan等开发了“CookieCheck”工具,发现约一半测试网站(≈35k)在用户同意前安装分析Cookie,而本研究在无交互模式下,欧盟地区约30%的网站设置跟踪Cookie,这可能表明网站发布者随着时间推移更遵守隐私法律。
5.3 跟踪服务器地理位置研究
Iordanou等研究发现,约90%源自欧盟的跟踪流量终止于欧盟境内的跟踪服务器。
5.4 隐私政策和Cookie横幅研究
Linden等研究表明GDPR对隐私政策有积极影响,隐私政策的视觉和文本表示以及重要主题的覆盖范围都有所改善。Degeling等也观察到GDPR实施后,许多网站添加和更新了隐私政策并显示Cookie横幅。Sørensen等发现GDPR引入后,欧盟网站上的第三方数量有所下降,但不能确定这完全是由于GDPR。Kretschmer等对现有研究进行全面调查,报告GDPR的实施导致欧盟地区第三方跟踪减少、Cookie横幅和隐私政策增加。
5.5 Cookie横幅文本和位置研究
Santos等手动分析欧盟流行英语网站上的400个Cookie横幅,发现61%的横幅使用模糊语言,违反了特定目的原则。Utz等研究发现,Cookie横幅的位置或文本变化会对用户的同意决策产生重大影响,例如横幅显示在屏幕左下角时,用户更有可能与之交互。
5.6 CCPA相关研究
Chen等对加利福尼亚消费者的调查发现,网站对CCPA的解释存在显著差异,隐私政策披露对终端用户来说似乎模糊不清。Connor等研究发现,网站在实施“选择退出用户个人信息销售权”的规定时方式模糊,阻碍了用户选择退出的积极性。
6. 研究成果与工具对比
6.1 BannerClick工具成果
开发了BannerClick工具,可自动检测、接受和拒绝Cookie横幅,准确率分别为99%、97%和87%。通过在5大洲的8个地理位置进行测量,发现从欧盟地理位置访问网站时,横幅数量比其他地区多56%。量化了横幅交互的影响:点击“接受”后,网站平均发送的第三方Cookie数量是之前的5.5倍,跟踪Cookie也呈现类似趋势。此外,还发现Cookie数量因访问页面(内部页面与着陆页)和客户端平台(桌面与移动)而异。
6.2 排除非Cookie横幅HTML元素的规则
在检测横幅时,若元素具有特定属性且包含相关词汇,则将其排除:
1. 元素设置为不可见,用户无法与之交互。
2. 元素的z - index为负,位于页面其他对象后面,不能包含横幅。
3. 元素不在用户可见区域内,不能包含横幅。
4. 横幅的GUI部分通常不使用JavaScript实现,即使包含Cookie相关词汇也排除。
此外,如果Cookie相关词汇出现在表格元素中,也会忽略。代码及详细启发式信息可公开获取。
6.3 创建横幅交互词汇语料库的方法
为创建“接受”、“拒绝”和“设置”词汇的语料库,访问Tranco top - 10K网站并检测横幅。对成功检测到横幅的网站,使用Google的cld3库识别其语言,发现4215个网站使用12种语言,其中英语占比超过77%。
采用简单方法检测给定语言中常用词汇:选择特定语言的所有横幅,识别横幅中的按钮及其关联词汇,统计词汇频率,分离出在至少1%的横幅中单独出现的词汇。对于非英语语言,将词汇翻译成英语并手动检查其语义是否属于“接受”、“拒绝”或“设置”类别,最终得到12种不同语言的172个词汇。
6.4 BannerClick与Priv - Accept Web爬虫的比较
| 比较项 | BannerClick | Priv - Accept |
|---|---|---|
| 拒绝按钮识别 | 可以识别并点击拒绝按钮 | 无法识别和点击拒绝按钮 |
| 横幅检测方式 | 先检测横幅,再搜索横幅内的词汇 | 不检测横幅,检查整个DOM中的接受相关词汇 |
| 语言支持 | 支持12种流行语言的接受相关元素点击 | 仅搜索英语词汇 |
| iframe处理 | 查找iframe内的横幅 | 忽略iframe |
在Tranco top - 1k网站上进行比较,Priv - Accept可在451个网站上点击接受,BannerClick为430个。66个网站Priv - Accept能点击接受而BannerClick不能,主要是因为这些网站未显示明确的接受选项,BannerClick不认为是明确接受;59个网站BannerClick能处理而Priv - Accept不能,原因包括Priv - Accept无法识别正确按钮、BannerClick可检测iframe内的横幅或网站使用非英语语言。
综上所述,网络Cookie的使用和管理受多种因素影响,包括地理位置、隐私法规和技术手段等。虽然浏览器厂商和法规在一定程度上改善了用户隐私,但仍面临诸多挑战,如Cookie横幅自动化困难、法规实施效果不佳等。未来需要浏览器开发者、广告公司和立法者共同努力,以提升用户隐私保护水平。
7. 未来展望
7.1 浏览器厂商持续推进隐私保护
浏览器厂商在用户隐私保护方面已经迈出了重要的步伐,未来也将持续推进相关工作。Mozilla朝着为每个网站提供完全隔离的Cookie存储方向发展,这有望进一步增强用户数据的独立性和安全性。Apple默认阻止第三方Cookie的举措,也可能会促使其他浏览器厂商跟进,形成更广泛的隐私保护趋势。Google提出多种替代第三方Cookie的方案,虽然目前还不确定哪种方案会成为主流,但这显示了其在隐私保护方面的积极探索。
7.2 法规完善与实施加强
现有的隐私法规如GDPR和CCPA在实施过程中暴露出一些问题,未来需要进一步完善法规内容,加强实施力度。例如,CCPA在减少第三方Cookie方面效果不佳,需要明确更具体的规则和更强有力的监管措施。同时,法规应该更加注重用户的实际体验,确保用户能够轻松理解和行使自己的权利。
7.3 技术创新解决自动化难题
为了解决Cookie横幅自动化面临的挑战,需要技术创新。一方面,开发更智能、更通用的自动化工具,能够适应不同类型和语言的Cookie横幅。另一方面,推动同意管理平台(CMPs)的标准化实施,提高其在热门网站的覆盖率,为开发者提供更可靠的自动化交互接口。
7.4 用户意识提升
用户是隐私保护的最终受益者,提升用户的隐私意识至关重要。通过教育和宣传,让用户了解Cookie的工作原理、隐私法规的内容以及如何保护自己的隐私。只有用户积极参与,才能形成有效的市场需求,推动整个行业向更注重隐私保护的方向发展。
8. 总结
8.1 核心要点回顾
- 地理与平台差异 :不同地理位置和客户端平台(桌面与移动)在Cookie使用和横幅显示上存在显著差异。从欧盟地理位置访问网站时,横幅数量明显增多;桌面和移动设备在网站访问时检测到的横幅数量相近,但在Cookie设置上可能存在不同。
- 法规影响 :GDPR和CCPA等隐私法规对网络Cookie的使用产生了影响,但效果参差不齐。GDPR在一定程度上促使网站发布者更遵守隐私法律,而CCPA在减少第三方Cookie方面效果不佳,合规网站甚至设置更多的第三方Cookie。
- 自动化挑战 :Cookie横幅自动化面临诸多挑战,包括横幅种类繁多、现有工具存在缺陷、同意管理平台标准化不足以及横幅设计故意阻碍用户拒绝Cookie等。
- 技术工具 :开发的BannerClick工具在Cookie横幅检测和交互方面取得了一定成果,能够自动检测、接受和拒绝Cookie横幅,且准确率较高。与Priv - Accept Web爬虫相比,BannerClick在多个方面具有优势。
8.2 未来方向与建议
为了提升用户隐私保护水平,未来需要各方共同努力:
-
浏览器开发者
:继续加强隐私保护功能的开发,如进一步完善第三方Cookie的阻止机制,提供更可靠的Cookie存储隔离方案。
-
广告公司
:遵守隐私法规,积极配合标准化的同意管理平台的实施,减少对用户隐私的侵犯。
-
立法者
:完善隐私法规,加强监管力度,确保法规的有效实施,同时注重用户体验和权益保护。
-
用户
:提高隐私意识,主动了解和行使自己的隐私权利,对Cookie横幅的选择更加谨慎。
8.3 整体影响与意义
网络Cookie的使用和管理是一个涉及多方利益的复杂问题。通过对Cookie横幅、隐私法规和自动化工具的研究,我们能够更深入地了解用户隐私保护的现状和挑战。这不仅有助于推动技术的发展和法规的完善,也能为用户提供更安全、更隐私的网络环境。未来,随着各方的共同努力,我们有望看到网络隐私保护水平的显著提升。
8.4 流程图:网络Cookie研究与发展路径
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px
A(网络Cookie研究):::process --> B(地理与平台差异分析):::process
A --> C(法规影响研究):::process
A --> D(自动化工具开发):::process
B --> E(发现不同地区和平台差异):::process
C --> F(评估GDPR和CCPA效果):::process
D --> G(BannerClick工具开发):::process
E --> H(为用户提供针对性隐私建议):::process
F --> I(推动法规完善):::process
G --> J(解决自动化挑战):::process
I --> K(立法者加强监管):::process
J --> L(浏览器开发者改进功能):::process
K --> M(提升整体隐私保护水平):::process
L --> M
这个流程图展示了网络Cookie研究的主要方向以及各个环节之间的关联,最终目标是提升整体的隐私保护水平。从研究地理与平台差异、法规影响到开发自动化工具,每个步骤都相互影响,共同推动网络隐私保护的发展。
超级会员免费看
985

被折叠的 条评论
为什么被折叠?



