74、探索网络Cookie的多元影响

探索网络Cookie的多元影响

1. CMP使用情况

CMP(Cookie管理平台)在网络隐私管理中扮演着重要角色。在排名前46的使用CMP的网站中,没有发现单一网站,且排名靠前的网站中CMP的部署普遍较低。这是因为大型互联网公司倾向于避免依赖第三方处理隐私敏感数据。

从2021年7月到2022年1月,CMP的使用略有增加,从排名前1000的网站中的95个增加到107个。这表明CMP将在Cookie生态系统中继续发挥重要作用。

对于其他VPs(观察点),平均检测到的CMP较少。部分原因是一些CMP在不显示横幅时不实现其API(如__tcfapi()或自定义API),这种情况在非欧盟VPs中更为常见。“其他”类别中CMP的份额也有所增加,这表明如果不显示横幅,流行的CMP不太可能提供API。

2. 地理位置的影响

2.1 横幅检测与交互

通过从八个地理位置不同的观察点抓取Tranco排名前10000的网站,并以三种模式(无交互、接受、拒绝)与横幅进行交互,发现非欧盟国家中,不到30%的网站检测到横幅,而在欧盟国家,约47%的Tranco排名前10000的网站有横幅,相比非欧盟国家增加了56%。此外,在所有位置,BannerClick接受的横幅数量多于拒绝的,这表明横幅更倾向于显示接受选项。

2.2 对Cookie的影响

  • 无交互模式 :63%的网站在至少一个位置设置不同数量的TP(第三方)Cookie。其中,56%的网站在美国东部或西部设置的TP Cookie最多,在德国和瑞典最少。在欧盟地区,约56%的网站设置TP Cookie,30%设置跟踪Cookie;在非欧盟地区,设置TP Cookie和跟踪Cookie的网站比例分别为64%和43%。这表明GDPR对减少TP和跟踪Cookie有积极影响,但仍有许多网站在未获得用户同意的情况下设置这些Cookie。
  • 接受模式 :在所有VPs都能成功检测并接受横幅的网站(占Tranco排名前10000的18%)中,21%的网站在所有位置发送的TP Cookie数量完全相同。对于仅在欧盟提供横幅且BannerClick能点击接受按钮的网站(占总数的37.6%),欧盟内VPs的TP Cookie变化几乎相同,非欧盟地区的VPs也有类似趋势。在交互前,欧盟地区约60%的网站平均最多设置5个TP Cookie,约80%的网站平均最多设置4个跟踪Cookie;非欧盟地区,60%的网站最多设置20个TP Cookie,80%最多设置40个跟踪Cookie。接受横幅政策后,欧盟地区65%和83%的网站设置的TP和跟踪Cookie分别少于非欧盟VPs无交互时的情况。但GDPR对FP(第一方)Cookie没有影响,70%的网站在接受横幅后设置的Cookie数量多于或等于非欧盟VPs无交互时的情况。
  • 拒绝模式 :对于仅在欧盟显示横幅且能点击拒绝按钮的网站(占总数的23.7%),87%和96%的网站在拒绝横幅后设置的TP和跟踪Cookie分别少于非欧盟VPs无交互模式下的情况。对于FP Cookie,72%的网站也有类似趋势。

总体而言,GDPR对减少TP和跟踪Cookie有积极影响,但未发现其他隐私法(如LGPD和CCPA)对TP和跟踪Cookie有可衡量的影响。在横幅检测方面,欧盟国家检测到的横幅数量最多。

3. 网站Cookie一致性

3.1 站内一致性

为确保测量不受网站随机性的影响,对分层Tranco排名前10000的网站(三个不同排名层级各100个网站)在三种交互模式(无横幅交互、接受、拒绝)下各访问100次。使用变异系数(CoV)衡量站内一致性,CoV越小,Cookie行为越一致。结果显示,欧盟(德国和瑞典)的网站Cookie行为更一致,但这种差异主要受发送零个第三方Cookie的网站数量影响。总体而言,75 - 80%的网站CoV小于0.1。

3.2 站间一致性

使用Mann - Whitney U(MWU)测试和Holm p值校正,选择p值为0.05来确定统计显著性。结果发现,大多数差异发生在欧盟和非欧盟位置之间,超过一半的网站 - 交互元组显示出统计显著差异。而如果两个位置都在欧盟或都在欧盟外,差异较少。Tranco排名层级不影响这些差异。例如,nytimes.com从德国或瑞典访问时平均发送5个TP Cookie,从巴西访问时为10个,从其他国家访问时超过80个。

4. 着陆页与内页的Cookie差异

4.1 内页筛选

用户访问网站时,不仅会访问着陆页,还会浏览内页。为研究着陆页和内页的Cookie差异,使用简单标准将链接分类为内页:内页链接必须以着陆页的完全限定域名(FQDN)开头。由于Hispar列表中超过50%的内页不符合要求,因此采用自动化方法,为每个着陆页随机选择10个内页。具体步骤如下:
1. 访问网站的着陆页,获取包含内页和非内页链接的HTML页面。
2. 爬取 元素选择链接,检查其是否为潜在内页(即是否以着陆页的FQDN开头)。
3. 使用Selenium访问链接并提取最终链接(可能因重定向而改变)。
4. 如果是内页,将其添加到内页列表;如果已存在,则忽略。
5. 当找到10个内页或测试了着陆页上的50个链接时,停止搜索。

4.2 差异分析

在所有VPs中,12.7%和8%的网站在着陆页设置的TP和跟踪Cookie分别多于内页,如amazon.com、vk.com和youtube.com。按VPs分别来看,美国东部此类网站的比例最高(TP为32%,跟踪为24%),瑞典(TP为21%)和德国(跟踪为12.3%)最低。87%的这些网站在所有位置的着陆页平均至少多设置10个TP Cookie,可能是因为着陆页显示更多内容和第三方内容。

同时,14.7%和7.7%的网站在内页设置的TP和跟踪Cookie分别多于着陆页,如cnn.com、bbc.com和reddit.com。按VPs分别来看,德国(TP为29.7%)和南非(跟踪为19.3%)此类网站的比例最高,美国东部(TP为22%)和巴西(跟踪为15.3%)最低。尽管GDPR不鼓励在未获同意的情况下使用第三方,但仍有相当一部分网站优先在内页设置TP Cookie,这可能有助于用户画像。

总体而言,49.3%和27.3%的网站在着陆页和内页设置的TP和跟踪Cookie数量不同。此外,着陆页和内页的横幅数量大致相同。

4.3 流程图

graph LR
    A[访问着陆页] --> B[获取HTML页面]
    B --> C[选择链接]
    C --> D{是否以FQDN开头}
    D -- 是 --> E[使用Selenium访问链接]
    E --> F[提取最终链接]
    F --> G{是否为内页}
    G -- 是 --> H[添加到内页列表]
    G -- 否 --> C
    D -- 否 --> C
    H --> I{内页数量是否达到10个或测试链接数是否达到50个}
    I -- 否 --> C
    I -- 是 --> J[结束搜索]

4.4 表格

页面类型 更多TP Cookie网站比例 更多跟踪Cookie网站比例 典型网站示例
着陆页 12.7% 8% amazon.com、vk.com、youtube.com
内页 14.7% 7.7% cnn.com、bbc.com、reddit.com
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值