探索网络Cookie的多元影响
1. CMP使用情况
CMP(Cookie管理平台)在网络隐私管理中扮演着重要角色。在排名前46的使用CMP的网站中,没有发现单一网站,且排名靠前的网站中CMP的部署普遍较低。这是因为大型互联网公司倾向于避免依赖第三方处理隐私敏感数据。
从2021年7月到2022年1月,CMP的使用略有增加,从排名前1000的网站中的95个增加到107个。这表明CMP将在Cookie生态系统中继续发挥重要作用。
对于其他VPs(观察点),平均检测到的CMP较少。部分原因是一些CMP在不显示横幅时不实现其API(如__tcfapi()或自定义API),这种情况在非欧盟VPs中更为常见。“其他”类别中CMP的份额也有所增加,这表明如果不显示横幅,流行的CMP不太可能提供API。
2. 地理位置的影响
2.1 横幅检测与交互
通过从八个地理位置不同的观察点抓取Tranco排名前10000的网站,并以三种模式(无交互、接受、拒绝)与横幅进行交互,发现非欧盟国家中,不到30%的网站检测到横幅,而在欧盟国家,约47%的Tranco排名前10000的网站有横幅,相比非欧盟国家增加了56%。此外,在所有位置,BannerClick接受的横幅数量多于拒绝的,这表明横幅更倾向于显示接受选项。
2.2 对Cookie的影响
- 无交互模式 :63%的网站在至少一个位置设置不同数量的TP(第三方)Cookie。其中,56%的网站在美国东部或西部设置的TP Cookie最多,在德国和瑞典最少。在欧盟地区,约56%的网站设置TP Cookie,30%设置跟踪Cookie;在非欧盟地区,设置TP Cookie和跟踪Cookie的网站比例分别为64%和43%。这表明GDPR对减少TP和跟踪Cookie有积极影响,但仍有许多网站在未获得用户同意的情况下设置这些Cookie。
- 接受模式 :在所有VPs都能成功检测并接受横幅的网站(占Tranco排名前10000的18%)中,21%的网站在所有位置发送的TP Cookie数量完全相同。对于仅在欧盟提供横幅且BannerClick能点击接受按钮的网站(占总数的37.6%),欧盟内VPs的TP Cookie变化几乎相同,非欧盟地区的VPs也有类似趋势。在交互前,欧盟地区约60%的网站平均最多设置5个TP Cookie,约80%的网站平均最多设置4个跟踪Cookie;非欧盟地区,60%的网站最多设置20个TP Cookie,80%最多设置40个跟踪Cookie。接受横幅政策后,欧盟地区65%和83%的网站设置的TP和跟踪Cookie分别少于非欧盟VPs无交互时的情况。但GDPR对FP(第一方)Cookie没有影响,70%的网站在接受横幅后设置的Cookie数量多于或等于非欧盟VPs无交互时的情况。
- 拒绝模式 :对于仅在欧盟显示横幅且能点击拒绝按钮的网站(占总数的23.7%),87%和96%的网站在拒绝横幅后设置的TP和跟踪Cookie分别少于非欧盟VPs无交互模式下的情况。对于FP Cookie,72%的网站也有类似趋势。
总体而言,GDPR对减少TP和跟踪Cookie有积极影响,但未发现其他隐私法(如LGPD和CCPA)对TP和跟踪Cookie有可衡量的影响。在横幅检测方面,欧盟国家检测到的横幅数量最多。
3. 网站Cookie一致性
3.1 站内一致性
为确保测量不受网站随机性的影响,对分层Tranco排名前10000的网站(三个不同排名层级各100个网站)在三种交互模式(无横幅交互、接受、拒绝)下各访问100次。使用变异系数(CoV)衡量站内一致性,CoV越小,Cookie行为越一致。结果显示,欧盟(德国和瑞典)的网站Cookie行为更一致,但这种差异主要受发送零个第三方Cookie的网站数量影响。总体而言,75 - 80%的网站CoV小于0.1。
3.2 站间一致性
使用Mann - Whitney U(MWU)测试和Holm p值校正,选择p值为0.05来确定统计显著性。结果发现,大多数差异发生在欧盟和非欧盟位置之间,超过一半的网站 - 交互元组显示出统计显著差异。而如果两个位置都在欧盟或都在欧盟外,差异较少。Tranco排名层级不影响这些差异。例如,nytimes.com从德国或瑞典访问时平均发送5个TP Cookie,从巴西访问时为10个,从其他国家访问时超过80个。
4. 着陆页与内页的Cookie差异
4.1 内页筛选
用户访问网站时,不仅会访问着陆页,还会浏览内页。为研究着陆页和内页的Cookie差异,使用简单标准将链接分类为内页:内页链接必须以着陆页的完全限定域名(FQDN)开头。由于Hispar列表中超过50%的内页不符合要求,因此采用自动化方法,为每个着陆页随机选择10个内页。具体步骤如下:
1. 访问网站的着陆页,获取包含内页和非内页链接的HTML页面。
2. 爬取
元素选择链接,检查其是否为潜在内页(即是否以着陆页的FQDN开头)。
3. 使用Selenium访问链接并提取最终链接(可能因重定向而改变)。
4. 如果是内页,将其添加到内页列表;如果已存在,则忽略。
5. 当找到10个内页或测试了着陆页上的50个链接时,停止搜索。
4.2 差异分析
在所有VPs中,12.7%和8%的网站在着陆页设置的TP和跟踪Cookie分别多于内页,如amazon.com、vk.com和youtube.com。按VPs分别来看,美国东部此类网站的比例最高(TP为32%,跟踪为24%),瑞典(TP为21%)和德国(跟踪为12.3%)最低。87%的这些网站在所有位置的着陆页平均至少多设置10个TP Cookie,可能是因为着陆页显示更多内容和第三方内容。
同时,14.7%和7.7%的网站在内页设置的TP和跟踪Cookie分别多于着陆页,如cnn.com、bbc.com和reddit.com。按VPs分别来看,德国(TP为29.7%)和南非(跟踪为19.3%)此类网站的比例最高,美国东部(TP为22%)和巴西(跟踪为15.3%)最低。尽管GDPR不鼓励在未获同意的情况下使用第三方,但仍有相当一部分网站优先在内页设置TP Cookie,这可能有助于用户画像。
总体而言,49.3%和27.3%的网站在着陆页和内页设置的TP和跟踪Cookie数量不同。此外,着陆页和内页的横幅数量大致相同。
4.3 流程图
graph LR
A[访问着陆页] --> B[获取HTML页面]
B --> C[选择链接]
C --> D{是否以FQDN开头}
D -- 是 --> E[使用Selenium访问链接]
E --> F[提取最终链接]
F --> G{是否为内页}
G -- 是 --> H[添加到内页列表]
G -- 否 --> C
D -- 否 --> C
H --> I{内页数量是否达到10个或测试链接数是否达到50个}
I -- 否 --> C
I -- 是 --> J[结束搜索]
4.4 表格
| 页面类型 | 更多TP Cookie网站比例 | 更多跟踪Cookie网站比例 | 典型网站示例 |
|---|---|---|---|
| 着陆页 | 12.7% | 8% | amazon.com、vk.com、youtube.com |
| 内页 | 14.7% | 7.7% | cnn.com、bbc.com、reddit.com |
超级会员免费看
1102

被折叠的 条评论
为什么被折叠?



