利用广告受众估计计算公共资料唯一性
在当今数字化时代,社交网络用户资料的唯一性评估是一个重要的研究课题。本文将介绍如何利用社交网络(以Facebook为例)广告平台的受众估计来计算公共资料的唯一性。
1. 数据来源
为了进行研究,我们从Facebook收集了两个数据集:
-
公共用户资料集
:包含用户公开的个人信息。
-
Facebook广告受众估计平台(FAP)统计数据集
:用于估计符合特定广告投放标准的用户数量。
1.1 Facebook资料概述
Facebook的用户资料是一系列描述用户个人数据的属性集合。这些属性的值可以是预定义的(如性别为男性或女性),也可以是自由文本形式(如兴趣爱好包括书籍、电影、购物等)。资料属性的可见性遵循Facebook的隐私规则,用户可以选择将属性设置为公开、仅好友可见或仅自己可见。
1.2 公共Facebook资料数据集(PubCrawl)
从大型社交网络收集数据是一项具有挑战性的任务,需要采用抽样方法以确保样本能均匀代表整个数据集。我们使用的PubCrawl数据集的获取步骤如下:
1. 从Facebook公共目录的拉丁字符部分抓取所有唯一用户名,得到1亿个用户标识符(IDs)。
2. 随机抽取494,392个ID,并获取对应的公共资料。
3. 使用地理编码API统一资料中的原籍国和当前国家的值,最终得到445,024个用于研究的资料。
虽然理论上通过对用户ID的32位空间进行真均匀抽样可以获得无偏样本,但实际上只有25%的空间分配给了现有用户。通过随机抽样Facebook公共目录中的可搜索资料ID,我们认为PubCrawl数据集能较好地代表Facebook公共资料的总体情况。
1.3 Facebook广告平台数据集
Facebook提供了一个广告受众估计平台(FAP),广告商可以选择不同的投放标准(如用户位置、性别、年龄等),FAP会输出符合这些标准的用户数量。
为了构建FAP数据集,我们选择了六个属性:性别、年龄、关系状态、兴趣、当前城市和当前国家。具体操作步骤如下:
1. 从PubCrawl数据集中的每个Facebook资料中提取已公开的属性值。
2. 针对每个提取的属性集,从FAP获取对应的受众规模。
3. 收集每个属性及其所有可能值的统计信息。
为了从FAP收集统计数据,我们开发了一个基于Selenium WebDriver的定制自动化浏览器,以可接受的速率向FAP发送请求。需要注意的是,Facebook会故意降低受众规模估计的粒度,对于少于20个用户的情况,只返回“少于20”,在后续方法中我们保守地将其视为20个用户。
2. 计算公共资料唯一性的方法
我们提出了一种利用社交网络广告平台受众估计来计算用户资料唯一性的方法。资料的唯一性与它所携带的信息量相关,通常使用信息惊奇度(IS)和熵来衡量。为了计算与用户资料相关的IS或熵,我们需要一种独立于所考虑资料总体的方法来估计观察到资料属性值集合的概率。
2.1 相关理论和符号
以下是本文使用的主要符号:
| 符号 | 含义 |
| ---- | ---- |
| A | 一组属性(a1, a2, …) |
| V(ai) | 属性ai的值 |
| uA | 基于属性A定义的资料 |
| pub, priv | 分别表示公共和私人社交网络资料 |
| ∅ai | 属性ai不可用的资料集 |
| P∅(ai) | 属性ai不在资料中出现的概率 |
| P rev(A) | 在已知属性在私人资料中存在的情况下,将属性A全部公开披露的概率 |
2.2 IS和熵的计算
信息惊奇度(IS)衡量随机变量特定结果所包含的信息量,用户资料uA的IS计算公式为:IS(uA) = -log2(P(uA)),其中P(uA)是具有属性A值的用户在总体中的比例。IS以比特为单位,每增加1比特的惊奇度,就会为用户资料增加1比特的识别信息,从而将资料可能所属的总体规模减半。
熵(H(A))量化随机变量(这里是多维随机向量)所包含的信息量,它是信息惊奇度的期望值,计算公式为:H(A) = -∑uA∈V(A) P(uA)IS(uA)。例如,在我们包含4.45×10⁵个资料的公共数据集中,IS达到19比特时用户是唯一的;对于Facebook估计的7.22亿用户总体,IS达到29比特时用户资料是唯一的。
我们可以使用IS和熵来衡量用户资料在社交网络用户中的唯一性,并进一步推导用户资料的匿名级别。
2.3 频率法(freq)的局限性
一种简单的计算资料唯一性的方法是基于整个社交网络资料的无偏样本(如PubCrawl),采用频率法(freq)来近似计算P(uA)。假设我们有一个包含|T ot|crawl个资料的数据集,对于属于PubCrawl的资料uA,其概率估计为|uA|/|T ot|crawl;否则为0。频率法计算的IS(ISfreq)公式为:
ISfreq = -log2(|uA|/|T ot|crawl)
然而,频率法存在至少两个缺点:
- 除非PubCrawl数据集包含所有可能的属性值组合,否则频率法的估计会非常粗糙,IS值受数据集样本大小的限制,最多只能达到19比特,而基于完整数据集的最大IS值为29比特。
- 对于PubCrawl数据集中不存在的属性值组合,我们无法估计其资料的唯一性。
因此,我们提出了一种基于社交网络广告系统受众估计的新方法,该系统可以访问用户的完整私人资料。
2.4 利用广告受众估计计算资料唯一性
理想情况下,为了准确计算属性集A的IS和熵,我们需要知道完整数据集中每个资料的频率。通过利用社交网络广告平台的受众估计,我们可以获得基于整个资料集的统计信息。但由于用户隐私政策的限制,公共资料披露的信息通常比私人资料少,导致FAP对公共资料频率的估计过高。
为了纠正这种偏差,我们可以使用公式|uA|pub = |uA|priv · P rev(A),其中P rev(A)是在已知属性在私人资料中存在的情况下,将属性A全部公开披露的概率。我们提出了两种计算P rev(A)的方法:
-
独立法(indep) :假设用户公共资料中披露特定属性的概率相互独立。计算步骤如下:
- 首先,我们知道公共和私人资料的总数相等,即|T ot|pub = |T ot|priv。
- 计算属性ai在公共资料中不可用的概率P ∅pub(ai)和在私人资料中不可用的概率P ∅priv(ai)。
- 通过公式推导得出P rev(ai) = 1 - (P ∅pub(ai) - P ∅priv(ai)) / (1 - P ∅priv(ai))。
- 根据属性之间的独立性,P revindep(A) = ∏ai∈A P rev(ai)。
- 最后,使用独立法计算公共资料uA的IS估计值:ISindep = -log2(|uA|priv · P revindep(A) / |T ot|priv)。
-
依赖法(dep) :考虑到属性披露概率之间可能存在的依赖关系,我们评估了PubCrawl数据集中特定属性披露可能性之间的相关性。结果表明,某些属性之间存在明显的相关性,例如用户披露“兴趣”属性后,披露其他属性的概率会显著增加。
P revdep(A)的计算公式与独立法类似:P revdep(A) = 1 - (P ∅pub(A) - P ∅priv(A)) / (1 - P ∅priv(A)),其中P ∅pub(A)和P ∅priv(A)分别是属性集A在公共和私人资料中不可用的概率。
计算P ∅priv(A)和P revdep(A)需要对V(A)中的每个值uA进行受众估计,这意味着需要向广告平台请求所有可能的属性集。与独立法相比,依赖法的测量成本更高,但这种成本可能并非不可接受。
综上所述,通过利用Facebook广告平台的受众估计,我们可以更准确地计算公共资料的唯一性,为评估用户资料的匿名性提供了一种有效的方法。不同的计算方法在准确性和测量成本之间存在权衡,研究人员可以根据具体需求选择合适的方法。
下面是获取P ∅priv(A)(以A = {Interested In, gender}为例)的操作流程mermaid图:
graph LR
A[开始] --> B[确定属性集合A]
B --> C[确定属性值范围]
C --> D[性别: {男, 女}; 兴趣: {男, 女, 两者}]
D --> E[向广告平台查询所有组合的资料数量]
E --> F[计算P ∅priv(A)]
F --> G[结束]
通过以上方法和流程,我们可以更好地理解和评估社交网络用户资料的唯一性和匿名性。
利用广告受众估计计算公共资料唯一性
3. 两种方法的对比分析
为了更清晰地了解独立法(indep)和依赖法(dep)的特点,我们从多个方面对这两种方法进行对比分析。
3.1 准确性
- 独立法 :该方法假设属性披露概率相互独立,在实际情况中,这种假设可能并不完全成立。当属性之间存在一定的依赖关系时,独立法的估计可能会存在偏差。例如,在我们对PubCrawl数据集的分析中发现,用户披露“兴趣”属性后,披露其他属性的概率会显著增加,而独立法没有考虑这种相关性,可能导致对资料唯一性的估计不够准确。
- 依赖法 :考虑了属性披露概率之间的依赖关系,通过计算属性集在公共和私人资料中不可用的概率,更准确地反映了实际情况。因此,在准确性方面,依赖法通常优于独立法。
3.2 测量成本
- 独立法 :只需要分别计算每个属性的披露概率,然后根据独立性假设计算属性集的披露概率,所需的查询次数相对较少。因此,测量成本较低。
- 依赖法 :需要对属性集V(A)中的每个值uA进行受众估计,即向广告平台请求所有可能的属性集。这意味着需要进行大量的查询,测量成本相对较高。例如,当属性集A包含多个属性时,可能的属性组合数量会呈指数级增长,导致查询次数大幅增加。
以下是两种方法在准确性和测量成本方面的对比表格:
| 方法 | 准确性 | 测量成本 |
| ---- | ---- | ---- |
| 独立法(indep) | 可能存在偏差,假设属性独立 | 较低,查询次数少 |
| 依赖法(dep) | 更准确,考虑属性依赖 | 较高,查询次数多 |
3.3 适用场景
- 独立法 :当属性之间的依赖关系较弱,或者对测量成本较为敏感时,独立法是一个不错的选择。例如,在一些对准确性要求不是特别高,而希望快速得到结果的场景中,可以使用独立法。
- 依赖法 :当属性之间存在明显的依赖关系,且对准确性要求较高时,依赖法更适合。例如,在进行重要的用户隐私评估或安全分析时,为了得到更准确的结果,即使测量成本较高,也应该选择依赖法。
4. 实际应用与拓展
利用广告平台受众估计计算公共资料唯一性的方法在多个领域具有实际应用价值,同时也可以进行进一步的拓展。
4.1 用户隐私保护
通过准确计算用户资料的唯一性,可以更好地评估用户的隐私风险。例如,当某个用户的资料唯一性较高时,其被识别的可能性也较大,隐私泄露的风险相应增加。社交网络平台可以根据这些评估结果,为用户提供更个性化的隐私保护建议,如调整隐私设置、限制某些属性的公开披露等。
具体操作步骤如下:
1. 计算用户资料的唯一性(使用独立法或依赖法)。
2. 根据唯一性结果评估隐私风险等级(如低、中、高)。
3. 根据风险等级为用户提供相应的隐私保护建议。
4.2 广告投放优化
广告商可以利用这些方法更精准地定位目标受众。通过了解不同属性组合的资料唯一性,广告商可以选择更具针对性的广告投放标准,提高广告的效果和转化率。
具体操作步骤如下:
1. 分析不同属性组合的资料唯一性。
2. 根据唯一性结果确定目标受众的特征。
3. 根据目标受众特征制定广告投放策略。
4.3 拓展研究方向
- 多平台应用 :目前的研究主要集中在Facebook平台,未来可以将这种方法拓展到其他社交网络平台,如Twitter、Instagram等,以更全面地了解用户资料的唯一性和隐私情况。
- 动态分析 :考虑用户资料随时间的变化,进行动态分析。用户的属性值可能会随着时间的推移而发生改变,因此研究资料唯一性的动态变化规律,可以更好地应对用户隐私保护和广告投放等问题。
5. 总结
本文介绍了如何利用Facebook广告平台的受众估计来计算公共资料的唯一性。通过收集公共用户资料集和FAP统计数据集,我们提出了基于信息惊奇度(IS)和熵的计算方法。
频率法(freq)虽然简单,但存在局限性,而独立法(indep)和依赖法(dep)通过考虑用户隐私政策和属性之间的关系,更准确地计算了资料的唯一性。两种方法在准确性和测量成本之间存在权衡,研究人员可以根据具体需求选择合适的方法。
在实际应用中,这些方法可以用于用户隐私保护和广告投放优化等领域,同时也为未来的研究提供了拓展方向。通过不断深入研究和应用,我们可以更好地保护用户的隐私,提高广告投放的效果,促进社交网络的健康发展。
下面是选择计算方法的决策流程mermaid图:
graph LR
A[开始] --> B[判断属性依赖关系]
B -->|弱依赖| C[选择独立法(indep)]
B -->|强依赖| D[判断对准确性的要求]
D -->|要求高| E[选择依赖法(dep)]
D -->|要求不高| C
C --> F[计算资料唯一性]
E --> F
F --> G[应用于实际场景]
G --> H[结束]
通过以上的分析和总结,我们对利用广告平台受众估计计算公共资料唯一性有了更深入的理解,为相关领域的研究和实践提供了有价值的参考。
超级会员免费看
1万+

被折叠的 条评论
为什么被折叠?



