机器学习实现个性化隐私设置

原创于 2025-10-25 15:00:50 发布 · 657 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#隐私 # 机器学习 # 隐私偏好

部署运行你感兴趣的模型镜像

减轻设置隐私偏好的负担：一种机器学习方法

摘要

为用户设置适当的隐私偏好既困难又繁琐。本文提出了一种解决方案，旨在减轻用户在注册新系统或服务时手动配置适当隐私设置的负担，以应对用户的隐私担忧。为此，我们实现了一种机器学习方法，为用户提供个性化默认隐私设置。具体而言，该方法结合了预测与聚类技术，用于建模并推测与用户隐私偏好相关的隐私配置文件。该方法考虑了服务提供商、个人数据类型和使用目的的组合。基于用户在注册阶段回答的少量问题，系统可预测其隐私偏好，并设定最优的默认隐私设置。我们使用对10,000名参与者进行问卷调查所得的数据集对该方法进行了评估。结果表明，在用户仅提供5个答案的有限输入情况下，系统能够以85%的准确率预测个性化隐私设置。

关键词

隐私 · Privacy-by-default · 隐私政策 · 隐私偏好

1 引言

默认隐私设置在限制或暴露在线服务用户的个人身份信息方面起着重要作用。一方面，高度限制性的隐私设置会降低在线服务的信息共享功能；另一方面，限制性较弱的隐私设置可能会严重损害用户的隐私。理想情况是拥有符合用户特定需求的个性化隐私和效用最优的偏好设置。挑战在于，服务提供商并未提供隐私最优以及默认情况下量身定制的偏好设置，而大多数用户自身无法建立此类设置。用户设定其偏好的能力程度取决于他们的技能水平以及对设置的理解[1]。根据[2]，典型偏好，例如社交网络站点（如脸书）代表用户设定的偏好，仅能满足用户期望的37%。此外，[3]的作者指出，用户表现出隐私悖论行为，即尽管他们的隐私担忧日益增加，但大多数人仍不愿采取进一步措施更改服务提供商设定的默认设置，而这些默认设置并未考虑个体偏好。此外，未能正确且最优地设置隐私偏好会大大增加最终用户的隐私担忧。特别是像O2O（线上到线下）这类新兴商业服务，伴随着一系列隐私担忧，已成为一个严重问题，主要由于服务协作的扩展[4,5]。在这方面，用户被导向此前完全不知与其有关联的服务等情况，导致用户产生更多的隐私担忧。互联网广告就是一个例子。由[6,7]开展的研究表明，通过使用私人数据进行个性化处理的互联网广告可能导致用户私人信息的泄露。因此，隐私正成为一个越来越重要的因素，可能阻碍用户发布个人数据的意愿。因此，为了妥善解决用户的隐私担忧，他们需要了解哪些数据正在被收集以及收集的目的。为实现这一目标，基于用户隐私偏好的访问控制机制是提供个人数据而不引起用户焦虑的关键功能。然而，当服务提供商、个人数据类型以及个人数据用途之间的组合变得极为庞大时，手动配置适当的隐私设置变得十分困难。

因此，通过提供能够解决个人隐私担忧的定制机制，并为用户提供个性化隐私设置，来简化设定保护隐私的默认偏好这一任务非常重要。本文中，我们提出了一种用于自动生成个性化隐私设置的智能机制。该机制旨在通过默认提供优化的隐私偏好设置来支持用户的在线交互，同时最小化个人的隐私风险。为此，我们提出的方法包括在用户注册新服务时向每位用户提供一组最少的问题，并根据用户的答案预测每位用户的个性化默认隐私设置。我们考虑了与16种不同使用目的相关的80种不同类型数据的参数。首先，我们设计了一份问卷，以了解用户的隐私担忧及其对为不同目的提供个人数据的可接受程度。该问卷以网络调查的形式进行，共有约10,000名参与者。其次，我们提出了一种基于机器学习的推测方案。该基本方案采用SVM（Support Vector Machine）。在此方案中，我们首先仅通过考虑隐私设置的少数几个答案，生成完整设置集的SVM模型。最后，为了提高整体性能，我们提出通过结合支持向量机和聚类算法来扩展基本方案。

本文的其余部分组织如下：第2节概述了隐私政策管理。第3节描述了本研究工作所使用的主要方法论。第4节介绍了提出的方法，该方法在第5节中进行了评估。第6节讨论了该方法的优点和局限性。第7节概述了隐私偏好领域的相关工作，而第8节则总结了主要结论并指出了未来的研究方向。

2 隐私政策管理

在本节中，我们讨论隐私政策设置和管理工具的不同维度。隐私政策管理已成为在线服务提供商用于规定、传达和执行在线用户隐私权利的常用方法。在此模型中，每个在线服务提供商为其每项在线服务提供一份隐私政策，用户必须在开始使用相应服务之前阅读并接受该隐私政策。如果用户不同意该服务的隐私政策，则无法使用该服务。此外，由于可以预见用户需要查阅大量隐私政策，这成为一项繁琐的任务，大多数用户发现难以理解。Acquisti和Grossklags[8]进行的一项实验研究表明，在确认隐私政策时，用户缺乏对技术和法律形式隐私保护的知识。他们的观察表明，即使是一些关心并有动机保护自身隐私的个人，在试图保护自己的私人信息时也面临诸多困难。这些发现得到了[9]中作者的支持，他们也证实了用户不熟悉与隐私相关的技术术语和法律术语这一假设。此外，有研究指出，用户对隐私威胁以及有助于保护其隐私的技术的认知是不足的[10]。此外，Solove还指出，尽管隐私法一直过于依赖隐私自我管理模式[11]，但该模式根本无法实现其目标，并且已被推向极限。

在这方面，隐私偏好平台（P3P）[12,13]旨在使在线服务能够以标准格式表达其隐私政策。通过这种方式，用户代理可以自动检索并轻松解读隐私政策。用户代理模块将使用户了解网站的做法，并尝试自动化决策过程。在此方向上，隐私鸟[14,15]被设计用于自动检索网站的P3P政策。其他描述隐私政策的方法也在[13,18,19]中被提出。Backes et al.提出了使用形式化抽象语法和语义来表达政策内容，以比较企业隐私政策[17]，而通德尔和尼雷[20]则提出了一种用于比较机器可读的隐私政策的相似性度量。此外，还提出了隐私政策检查器针对在线服务的方法由作者在[21]中提出。检查器将用户隐私政策与提供商隐私政策进行比较，然后自动确定该服务是否可以使用。然而，根据[22]中作者的观点，这类方法在现实场景中的用户接受度不足。

值得注意的是，解读隐私政策只是第一步，之后用户需要手动配置一组隐私设置，以匹配特定的隐私政策。此外，尽管一些浏览器配备了试图将隐私偏好与隐私政策相匹配的隐私模块，但在实践中，该模块并未被在线服务广泛采用[16]。这主要是由于其复杂的政策定义，以及该模块仅在网络浏览器上实现所致。因此，直到最近，许多研究工作都集中在隐私政策规范的研究上，而较少有研究致力于简化设置隐私偏好的任务，而这正是我们研究工作的主要关注点。

3 方法论

本节介绍了用于数据收集的方法论，并提供了参与者及其隐私偏好分布的洞察。

3.1 数据收集

在这项研究中，我们首先设计了一份问卷，以了解用户在不同服务和使用目的下共享各类个人数据的意愿，从而将这些偏好映射到用户的隐私偏好设置中。为此，我们首先确定了P3P中定义的不同类型的使用目的（表1）和个人数据（表2），[12]。

表1. 使用目的。
| | 无数据用途 |
| — | — |
| A | 提供服务 |
| B | 系统管理 |
| C | 市场营销 |
| D | 行为分析 |
| E | 推荐 |

我们将问卷发布为一项在线调查，并从由一家研究服务公司招募的10,000名参与者中收集了答案。虽然问卷的主要目标是确定用户的隐私偏好，但我们同时也提出了

表2. 个人数据类型。
| | 否数据类型 |
| — | — |
| 1 | 地址和电话号码 |
| 2 | 电子邮件地址 |
| 3 | 服务账户 |
| 4 | 购买记录 |
| 5 | 银行账户 |
| 6 | 设备信息（例如IP地址、操作系统） |
| 7 | 浏览历史 |
| 8 | 搜索引擎日志 |
| 9 | 个人信息（例如年龄、性别等） |
| 10 | 电子邮件、博客、推特等内容 |
| 11 | 会话信息（例如，Cookies） |
| 12 | 社会信息（例如，宗教、志愿者记录） |
| 13 | 医疗信息 |
| 14 | 爱好 |
| 15 | 位置信息 |
| 16 | 官方身份证件（例如国家身份证或许可证号码） |

通过提供有关每项服务访问特定数据的潜在好处和风险的信息，提高隐私意识。

3.2 描述性结果

参与者的分布是均匀的（见表3），每位参与者回答了一份包含80个项目的问卷，对应于在线服务、个人数据类型和使用目的所形成的80种组合，每个项目采用1到6的李克特量表（“1”表示强烈不同意，“6”表示强烈同意）。图1总结了按用户数字原生性分组的结果分布1。可以看出，随着提供个人数据接受度的增加，参与者的百分比下降，但显然参与者的数字原生性并未产生影响。

最后，我们将收集的数据作为所提出的推测方案的输入（第4节）。此外，为了简化我们的模型，我们将得到的结果合并为以下三个类别，量表范围为0到2，即：(i) 将1和2合并为量表0；(ii) 将3和4合并为量表1；以及(iii) 将5和6合并为量表2。

1980年后出生，在数字化、媒体密集的环境中成长的个体——Prensky 2001。

表3. 参与者的分布
| 性别年龄 | 比例（%） |
| — | — |
| Male 20s | 10.0 |
| Male 30s | 10.0 |
| Male 40s | 10.0 |
| Male 50s | 10.0 |
| Male 60岁以上 | 10.0 |
| 女性 20多岁 | 10.0 |
| 女性 30多岁 | 10.0 |
| 女性 40多岁 | 10.0 |
| 女性 50多岁 | 10.0 |
| 女性 60岁以上 | 10.0 |

示意图0

4 方法

本节介绍我们的初步方法，该方法考虑了两种猜测方案，均以支持向量机为基础。我们选择支持向量机是因为它被认为是一种强大的学习系统，尽管主要适用于二分类问题[38]。然而，我们认为支持向量机也可以通过预先选定的非线性映射将输入隐式映射到高维特征空间，从而高效地执行非线性分类。因此，在我们的实验中，采用了多标签多分类支持向量机方法。

4.1 架构概述

提出的方法由预测器生成器和隐私设置预测引擎以及隐私设置数据库组成。预测器生成器通过选择最少（最优）数量的相关问题，生成一个问题集。

这些问题与数据库中的在线服务、数据类型和使用目的相关联。预测引擎还会通过现有隐私设置的建模生成相应的预测器。系统将最优问题集提供给用户，一旦用户提供对该问题集的回答，其回答将由隐私设置预测引擎用于生成针对该用户的预测设置。个性化设置生成后，将传达给用户。系统的高级视图如图2所示。

4.2 实验方法

为了验证所提出系统的适用性，我们实现了预测器生成器和隐私设置预测引擎的概念验证。我们使用收集的数据（即上一节中介绍的问卷的结果）对它们进行了准确率方面的评估。具体而言，问卷中的项目对应于我们提出的方法中的隐私设置。收集的数据被划分为训练数据和测试数据。具体来说，训练数据对应于我们概念验证中的隐私设置数据库。在评估方案中，我们首先固定一个问题集；接着，将固定问题的答案值视为特征向量，并利用训练数据生成最优的预测模型。

最后，我们的方法在设计时考虑了两种不同的方案：第一种方案仅基于支持向量机；而第二种方案则增加了一个包含聚类技术的额外层。这两种方案，即基于支持向量机的方案和组合方案（支持向量机与聚类技术结合），都包含两个阶段：学习阶段和猜测阶段。

4.3 基于SVM的方案

接下来将解释基于SVM的方案所执行的学习和猜测阶段。

[学习阶段]
- 我们选择 n 个问题，其中 1 ≤ n ≤ Max。Max 等于问题总数，n 等于用于训练相应答案的已选问题的数量。
- 使用选定的 n 问题，我们生成了支持向量机隐私偏好模型。在此模型中，类别标签表示基于训练数据中 n 的答案组合作为样本点，对未选中的 Max−n 问题的接受程度。

[猜测阶段]
- 对于每个未知点，即已选 n 问题的答案组合，我们使用学习阶段为每个未选问题生成的SVM模型，并计算这些 Max − n 未选问题答案的猜测值。

4.4 组合方案

类似于第4.3节，该组合方案包含两个阶段：学习阶段和猜测阶段，接下来介绍每个阶段的主要步骤。

[学习阶段]
- 我们使用相应的聚类算法从训练数据中生成簇。每个簇被分配一个聚类ID i(1 ≤ i ≤ k)，其中 k 是簇的总数。簇的质心被视为该簇的代表值。
- 我们选择 n 个问题，其中 1 ≤ n ≤ Max。Max 等于问题总数，n 等于用于推测相应答案的已选问题的数量。
- 我们生成一个SVM模型，该模型使用训练数据中已选 n 个问题的答案组合作为样本点，将类别标签映射到聚类ID。

[猜测阶段]
- 对于每个未知点（即已选问题的答案组合），我们计算了该未知点所属聚类的聚类ID的猜测值。我们将代表值（即聚类的质心）视为未选问题答案的猜测值。

5 结果

所提方法（第4节）在概念验证中实现，并使用从问卷收集的真实用户数据进行评估。因此，本节介绍我们的初步实验结果。我们使用R语言实现了所提方案，并采用支持向量机的“e1071”[39]包。通过对每个方案运行10次实验进行评估。数据样本随机选取，并被划分为训练数据和测试数据。表4展示了实验设置中所用参数的汇总。

我们针对每种方案进行了两个不同的实验。首先，我们选择了最优组合，即在随机选取的150条记录中，通过考虑这150条记录（其中100条记录用于训练数据，50条记录用于测试数据）获得最高准确率的 T C= 15个 n问题组合。为了减少评估所有可能组合时的运行时间，我们将实验限制在150条记录内。接着，我们使用相同的最优组合，即 T C= 15个 n问题组合，并利用10,000条记录（即9,000条用于训练数据，1,000条用于测试数据）对方案进行评估。需要注意的是，在第二次实验中，我们不能声称所选的15种组合能够提供最高的准确率。实验中每个方案的主要步骤在以下小节中进行说明。

表4. 实验设置。
| 参数 | 值 |
| — | — |
| Max | 80 |
| n | 5 |
| 最佳组合（TC） TC= | 15 |
| 训练数据（TRD） | T RD= 100, T RD= 9000 |
| 测试数据（TED） | T ED= 50, T ED= 1000 |

5.1 基于SVM的方案

接下来，我们将解释使用训练数据集对模型进行评估的步骤。
- 如表4所示，我们首先定义 n等于5为所选问题的数量，总问题数为 Max= 80；
- 我们生成了相应的 SVM模型，其中类别标签是每个未选 Max − n问题的接受程度。我们使用训练数据中已选 n问题的答案组合作为样本点。
- 对于训练数据中每个实例（参与者）的全部80个答案，我们使用针对每个未选 Max−n问题（即75个）的SVM模型，以及每个实例的n已选问题的 n答案。随后，我们计算了未选问题答案的猜测值。
- 通过对训练数据中所有参与者重复步骤3，我们计算出所有参与者对未选Max−n问题答案的猜测值。
- 我们将训练数据中75个未选问题答案的原始值与步骤4中计算出的猜测值进行比较。最后，我们将正确猜测值的百分比视为所提方案的准确率。

生成的默认隐私偏好模型与测试数据的评估过程描述如下。
- 我们考虑了学习阶段生成的SVM模型。
- 对于测试数据中每位参与者80个答案，我们计算了其对75个未选问题的答案猜测值。
- 通过对测试数据中的每位参与者重复步骤3，我们计算了所有参与者对75个未选问题的答案猜测值。
- 我们将测试数据中75个未选问题答案的原始值与步骤4中计算出的猜测值进行比较。我们将正确猜测的值的百分比视为所提方案的准确率。

表5. SVM方案优化结果。
| 组合 | 组合 | 组合 | 组合 | 组合 | 准确率 (TRD =100, TED =50) 准确率 (TRD=9000, TED =1000) |
| — | — | — | — | — | — |
| A-8 | B-12 | C-16 | D-14 | E-11 | 0.894 / 0.83296 / 0.858903111 / 0.85662 |
| B-7 | C-12 | D-6 | D-14 | D‐15 | 0.88928 / 0.832106667 / 0.853968889 / 0.851904 |
| B-12 | B-15 | D-5 | D-8 | E-6 | 0.88828 / 0.832293333 / 0.85102637 / 0.846982667 |
| B-7 | C-16 | D-11 | D-14 | E-11 | 0.887986667 / 0.835893333 / 0.854038815 / 0.85178 |
| B-4 | B-15 | D-14 | E-6 | E-11 | 0.887613333 / 0.832506667 / 0.852193333 / 0.849068 |
| B-8 | C-16 | D-14 | E-10 | E-11 | 0.887186667 / 0.83728 / 0.854693481 / 0.852498667 |
| A-8 | B-12 | D-6 | D-14 | E-11 | 0.884493333 / 0.83064 / 0.854496148 / 0.853093333 |
| B-4 | B-15 | D-6 | D-14 | E-11 | 0.884226667 / 0.83424 / 0.852772296 / 0.85098 |
| A-3 | A-16 | C-12 | D-11 | E-3 | 0.883733333 / 0.830426667 / 0.850421926 / 0.84796 |
| B-7 | B-12 | D-14 | D-15 | E-6 | 0.883586667 / 0.83272 / 0.853168444 / 0.850312 |
| B-7 | C-14 | D-10 | D-16 | E-11 | 0.88356 / 0.832106667 / 0.852408296 / 0.849949333 |
| B-7 | C-12 | D-10 | D-16 | E-11 | 0.883373333 / 0.83552 / 0.851519259 / 0.848646667 |
| A-2 | B-7 | D-14 | D-16 | E-11 | 0.8832 / 0.839066667 / 0.854657037 / 0.853193333 |
| A-12 | B-7 | C-14 | D-6 | D‐15 | 0.88316 / 0.8348 / 0.853704741 / 0.85178 |
| A-12 | B-8 | C-16 | E-10 | E-11 | 0.882986667 / 0.832533333 / 0.852644741 / 0.849993333 |

表格5显示了在考虑选定的 n问题的前15种组合（即准确率最高的组合）时，从10次实验运行中获得的结果的平均值。SVM模型的每个参数均通过在参数 C和 γ上进行网格搜索来优化。结果表明，在150条记录的情况下，所有前 15种组合的猜测准确率为83%，其中9种最优组合的准确率达到85%。

5.2 组合方案

组合方案的准确率在将参与者的猜测值视为其所属簇的质心的基础上进行评估。评估流程包括以下步骤。
- 使用聚类技术，我们首先生成了参与者的簇，这些簇对应于 Max= 80个问题的答案组合。结果，每位参与者都被分配了一个聚类ID。
- 对于每位参与者，我们将他/她所在簇的质心作为其 Max个答案的猜测值。
- 我们将训练数据中的原始值与猜测值进行比较，并将正确猜测的值的百分比视为所选聚类算法的准确率。

我们使用K‐均值[40]、ward法[41]和DB‐扫描[42]作为选定的聚类算法进行实验。对于K‐均值和ward法，我们评估了聚类数量从1到30的不同情况。对于DB‐扫描，我们评估了点数pts从2到6以及邻域半径eps从1到4的不同参数组合。虽然K‐均值的准确率（即77%）优于ward法，但两者的准确率均随着聚类数量的增加而提高；我们使用K‐均值评估了组合方案使用总共5个簇。对于DB‐扫描算法，由于在该算法中无法预先确定聚类数量，因此很难将其与K‐均值或ward法直接比较；然而，在几乎所有情况下，DB‐扫描算法的准确率都低于K‐均值和ward法。因此，在本文其余部分中，我们仅关注K‐均值算法。

K‐均值、ward法和DB‐扫描的主要结果概述见表6和表7。组合方案在训练数据上的评估流程如下。
- 我们使用K‐均值从训练数据中生成簇，每个簇被分配一个聚类ID i(1 ≤ i ≤ 5)。
- 我们从总共 Max= 80个问题中选择了 n等于 5个已选问题。
- 我们生成了一个SVM模型，该模型的类别标签对应于聚类ID，使用训练数据中已选 n= 5个问题的答案组合作为样本点。
- 对于训练数据中每位参与者全部的 80个答案，我们利用SVM模型以及每位参与者对已选问题的5个答案，计算其聚类ID的猜测值。我们将该簇的质心视为未选问题即75个答案的猜测值。
- 我们通过对训练数据中的每位参与者重复步骤3，计算所有参与者对75个未选问题答案的猜测值。
- 我们将训练数据中75个未选问题答案的原始值与步骤4中计算出的猜测值进行比较，将正确猜测的值的百分比视为所提方案的准确率。

组合方案使用测试数据的评估流程如下。
- 我们使用了在学习阶段生成的SVM模型。该模型的类别标签通过训练数据中 5个已选问题的答案组合作为样本点，与聚类ID相关联。
- 对于测试数据中每位参与者全部的80个答案，我们利用SVM模型以及该参与者对5个已选问题的回答，计算其聚类ID的猜测值。我们将该聚类的质心视为该参与者对75个未选问题的75个答案的猜测值。
- 通过对测试数据中的所有参与者重复步骤3，我们计算出所有参与者对75个未选问题的答案的猜测值。
- 我们将训练数据中75个未选问题的答案原始值与步骤4中计算出的猜测值进行比较，随后将正确猜测的值的百分比视为该方案的准确率。

表6. K‐均值和沃德的准确率。
| 聚类数量 | K‐均值 | 沃德 |
| — | — | — |
| 1 | 68.01362 | 68.01 |
| 2 | 81.67737 | 80.11 |
| 3 | 82.44963 | 80 |
| 4 | 83.05238 | 82.07 |
| 5 | 83.51137 | 82.17 |
| 6 | 83.83588 | 82.17 |
| 7 | 84.4875 | 82.92 |
| 8 | 85.29425 | 83.16 |
| 9 | 84.98512 | 83.73 |
| 10 | 85.576 | 83.9 |
| 11 | 85.82725 | 84.18 |
| 12 | 86.26325 | 84.23 |
| 13 | 86.19075 | 84.47 |
| 14 | 86.46462 | 84.51 |
| 15 | 86.64112 | 84.74 |
| 16 | 86.9585 | 84.79 |
| 17 | 87.18925 | 85.2 |
| 18 | 86.8855 | 84.98 |
| 19 | 87.18925 | 85.2 |
| 20 | 86.96225 | 85.25 |
| 21 | 87.20975 | 85.23 |
| 22 | 87.20163 | 85.31 |
| 23 | 87.25513 | 85.5 |
| 24 | 87.44513 | 85.51 |
| 25 | 87.50288 | 85.67 |
| 26 | 87.41025 | 85.76 |
| 27 | 87.74637 | 85.94 |
| 28 | 87.6485 | 86.04 |
| 29 | 87.64587 | 86.11 |
| 30 | 87.79313 | 86.12 |

结果如表8所示。“训练数据的聚类准确率”是指在评估流程的第4步中为训练数据计算的聚类ID，其正确猜测值的百分比。组合方案达到的最佳准确率为82%。该准确率是在使用前15种组合中的8种处理150条记录，以及使用前15种组合中的12种处理10,000条记录时实现的。

表7. DB扫描
| 点数 | 邻域半径 | 聚类数量 | 准确率 |
| — | — | — | — |
| 2 | 1 | 76 | 0.767654 |
| 2 | 2 | 61 | 0.789983 |
| 2 | 3 | 44 | 0.709418 |
| 2 | 4 | 15 | 0.697803 |
| 3 | 1 | 41 | 0.764831 |
| 3 | 2 | 31 | 0.788213 |
| 3 | 3 | 17 | 0.707174 |
| 3 | 4 | 5 | 0.696771 |
| 4 | 1 | 34 | 0.762885 |
| 4 | 2 | 21 | 0.786394 |
| 4 | 3 | 11 | 0.802324 |
| 4 | 4 | 2 | 0.702045 |
| 5 | 1 | 28 | 0.761396 |
| 5 | 2 | 21 | 0.786629 |
| 5 | 3 | 11 | 0.802275 |
| 5 | 4 | 2 | 0.702076 |
| 6 | 1 | 19 | 0.759063 |
| 6 | 2 | 16 | 0.785908 |
| 6 | 3 | 7 | 0.802275 |
| 6 | 4 | 2 | 0.702083 |

表8. 组合方案（TRD=100，TED=50）的准确率。
| 组合 | 组合 | 组合 | 组合 | 组合 | 聚类准确率 ‐ TRD | 准确率 ‐ TRD | 准确率 ‐ TED |
| — | — | — | — | — | — | — | — |
| A-11 | A‐15 B‐4 | C-2 | D-6 | | 0.744 | 0.8245 | 0.819975 |
| A‐12 B‐7 | B-8 | D‐11 E‐9 | E‐11 0 | 0.76 | 0.83405 | 0.8238 |
| B-6 | B-7 | D-7 | E-10 | | | 0.83355 | 0.8188 |
| A‐10 B‐4 | D-4 | E-6 | E-8 | | 0.724 | 0.822475 | 0.81155 |
| A‐10 B‐4 | D-6 | D-9 | E-6 | | 0.73 | 0.82835 | 0.82105 |
| A‐10 B‐4 | D-6 | D-9 | E-7 | | 0.736 | 0.8317125 | 0.820525 |
| A‐10 B‐4 | D-7 | D-9 | E-6 | | 0.725 | 0.828875 | 0.821175 |
| A‐10 B‐4 | D-9 | E-4 | E-6 | | 0.711 | 0.8275 | 0.8192 |
| A‐11 B‐4 | B-8 | D-10 | E-6 | | 0.721 | 0.828625 | 0.822875 |
| A‐11 B‐4 | D-10 | E-6 | E‐13 | 0.7 | 0.8228 | 0.8152 |
| A-13 | B-4 | D‐11 E‐6 | | | | 0.827275 | 0.820375 |
| A‐16 B‐6 | B-10 | D-8 | E-6 | 0.775 | 0.8337875 | 0.8232 |
| B-4 | B-10 | D-4 | D-13 | E-7 ‐12 | 0.761 | 0.8310375 | 0.819125 |
| B-4 | D-4 | D-6 | | | | 0.8316375 | 0.8213 |
| B-4 | D-6 | D-9 | E-4 | E-7 | 0.705 | 0.8225 | 0.8181 |

6 讨论

基于支持向量机（SVM）的默认隐私偏好设置推测方案，及其扩展形式（即 SVM与聚类技术的组合），在仅需最少用户输入的情况下，实现了对默认隐私设置较高精确度的推测。具体而言，我们共有80个问卷项目，其中仅使用了5个来推测其余75个问题的答案。这些自动化默认设置不仅减轻了用户执行繁琐隐私设置任务的负担，也免去了他们在后续做出信息披露决策的需要。

结果表明，第一种方案的准确率（即85%）优于组合方案（即82%）。然而，与组合方案相比，仅使用支持向量机的方案由于需要创建较多的模型（即 75个），运行速度较慢。因此，考虑到准确率差异较小（3%），可以选择实施组合方案以获得更好的性能，特别是对于9000条记录，使用K‐均值进行聚类所增加的时间极短（即0.3秒），可以忽略不计。据我们所知，该结果展示了首个利用支持向量机和聚类算法生成的适用于网络服务的个性化默认隐私设置。作者[43]提出了一种用于常见偏好的用户偏好预测方法。他们的研究采用基于相似性的聚类来对具有相似兴趣的用户进行分组，达到了80%的准确率。此外，他们引入了纠错程序，使准确率提升至98%。然而，纠错程序的结果是通过模拟数据（表9）获得的。

尽管我们的方法展示了机器学习算法在默认隐私设置中具有相当高的准确率，证明了其适用性，但仍存在一些局限性，需要在未来的研究中加以考虑。算法的预测精确度依赖于用户回答的问卷项目所提供的训练和测试输入数据。然而，答案的正确性和真实性取决于用户是否提供了理性且有意准确的回答。此外，该用户研究是在日本进行的，文化属性可能会影响结果在其他社会中的推广和应用程度。再者，我们的研究仅限于5个问题，并考虑了150条记录中的前15种组合，因此还需要进一步研究以确定足以实现可接受的预测准确率的问题的最优数量和最佳组合。在未来的工作中，我们计划使用不同的学习算法进行更多数量的实验。最后，提出的方法仅关注默认隐私偏好设置，而未涉及用户在使用互联网服务以及进行数据披露和不披露决策时面临的多维隐私问题。

表9. 组合方案的准确率（训练数据量 = 9,000，测试数据量 = 1 000）。
| 组合 | 组合 | 组合 | 组合 | 组合 | 聚类准确率 ‐ TRD | 准确率 ‐ TRD | 准确率 ‐ TED |
| — | — | — | — | — | — | — | — |
| A-11 | A‐15 B‐4 | C-2 | D-6 | | 0.731411111 | 0.81693 | 0.81735875 |
| A‐12 B‐7 | B-8 | D‐11 E‐9 | | | 0.748988889 | 0.82109125 | 0.82167 |
| B-6 | B-7 | D-7 | E-10 | E‐11 | 0.724666667 | 0.822432917 | 0.823305 |
| A‐10 B‐4 | D-4 | E-6 | E-8 | | 0.744133333 | 0.820498889 | 0.8205675 |
| A‐10 B‐4 | D-6 | D-9 | E-6 | | 0.746 | 0.81941375 | 0.81997875 |
| A‐10 B‐4 | D-6 | D-9 | E-7 | 0.763822222 | 0.823401111 | 0.8250475 |
| A‐10 B‐4 | D-7 | D-9 | E-6 | 0.759411111 | 0.822305694 | 0.82301125 |
| A‐10 B‐4 | D-9 | E-4 | E-6 | 0.751011111 | 0.819230278 | 0.8195725 |
| A‐11 B‐4 | B-8 | D‐10 E‐6 | | | 0.743255556 | 0.820663889 | 0.820705 |
| A‐11 B‐4 | D‐10 E‐6 | | | E‐13 | 0.755888889 | 0.821184306 | 0.821355 |
| A‐13 B‐4 | D‐11 E‐6 | | | E‐11 | 0.743044444 | 0.821143889 | 0.82237 |
| A‐16 B‐6 | B-10 | D-8 | E-6 | 0.757722222 | 0.82313375 | 0.823545 |
| B-4 | B-10 | D-4 | D‐13 E‐7 | D‐13 E‐12 | 0.749477778 | 0.8230475 | 0.82392625 |
| B-4 | D-4 | D-6 | | | | 0.823683889 | 0.82439125 |
| B-4 | D-6 | D-9 | E-4 | E-7 | 0.7408 | 0.823176528 | 0.8243375 |

7 相关工作

随着隐私侵犯事件的频发以及用户隐私担忧的增加，人们在隐私政策表示方面投入了大量努力。然而，针对最终用户隐私偏好设置管理的方法仍然有限。在这方面，科尔特和佩尔努尔强调了隐私偏好的重要性，并提出了一种面向服务提供商的用户友好型基于P3P的隐私偏好生成器[22]，该生成器包含配置向导和隐私偏好摘要。类似地，比斯瓦斯提出的研究方法[23]聚焦于隐私设置，包含一种用于检测隐私设置冲突的算法，特别是在智能手机生态系统中用户偏好与应用需求之间的冲突。

[24]的作者提出了隐私管家；这是一种个人隐私管理器，可根据隐私政策监控用户的在线存在。该概念仅关注社交网络中与用户在线存在相关的内容；并监控第三方是否未经同意披露用户信息，此机制验证内容是否充分符合用户的隐私偏好；若出现不匹配情况，则尝试修改或删除相应内容。Srivastava和Geethakumari[25,26]提出了一种隐私设置推荐系统，同样专注于在线社交网络服务。贝伦特等[27]强调了自动隐私偏好生成的重要性，而萨达等[28]指出，机器学习技术能够生成比用户自身设定更准确的隐私偏好，从而减轻用户指定隐私偏好的复杂任务。该问题得到了马德茨基等人[29]的支持，他们的研究聚焦于在线社交网络，并表明隐私设置的意图与实际设置之间存在严重不匹配。布菲特和弗莱明[30]研究了用于获取偏好的偏好建模方法。穆根等人[31]提出了一种生成用户画像和建议的方法，旨在帮助用户随时间逐步完善其隐私偏好。方等人[32,33]提出了一个用于社交网站的隐私向导。该向导的目的是以用户最少的操作自动配置用户的隐私设置。该向导基于以下基本观察：真实用户对其隐私偏好的理解是基于一种隐含结构的。因此，在向用户提出有限数量且精心选择的n个问题后，通常可以构建一个能够准确预测用户隐私偏好的机器学习模型。尽管已有类似研究，但我们的方法适用于通用的在线服务，而他们的方法适用范围有限（即仅用于限制社交媒体中好友的隐私，例如脸书）。此外，他们的模型类似于访问控制列表，用户在脸书中对好友设置限制，而我们的模型则是设置网络服务的隐私偏好。

此外，Lin等[34]应用了聚类技术来分析和理解用户的移动应用隐私偏好。作者使用静态分析工具分析了移动应用的隐私行为，并通过亚马逊土耳其机器人众包了用户对移动应用的隐私偏好。尽管结果令人感兴趣，但其隐私偏好聚类更侧重于移动应用，即安卓权限模型。郭和陈[35]提出了一种算法，根据用户期望的隐私级别和效用偏好来优化隐私配置，在该方法中用户仍需设置偏好级别。与此相反，Tondel等[36]提出了一种基于用户在网络上的日常交互决策来学习隐私偏好的概念架构。作者认为，学习隐私偏好有可能在不需要用户具备高水平知识或投入大量时间和精力的情况下提高隐私偏好的准确率。尽管这项工作很有意义，但其设计基于一个假设，即用户具有隐私意识，并愿意通过安装用户代理参与偏好生成。此外，尚未提供实际实现或实验验证。

作者[37]设计了一种基于本体的细粒度隐私偏好模型，使用户能够为其数据设置隐私偏好。尽管该方法提供了一种轻量级解决方案，但用户每次想要修改设置时都必须运行隐私偏好本体。此外，该方法还依赖于网页访问控制词汇。

8 结论与未来工作

本文中，我们引入了一种机器学习方法，以提供个性化的默认隐私设置。我们认为，设置隐私偏好的复杂性是一种不应强加给用户的负担，尤其是在假设用户能够为自己选择最佳隐私设置的情况下。尽管这在某些情况下可能是正确的，但已有研究表明，普通在线用户远未达到能够做到这一点的水平。因此，有必要为用户提供高效且量身定制的隐私偏好机制。为此，在本研究中，我们设计并实现了一个基于机器学习的概念验证，通过向用户提出最少数量的问题来帮助其完成隐私设置。结果表明，机器学习算法在仅需用户极少输入的情况下，具有自动化设置隐私偏好的巨大潜力。未来的工作将包括进一步提高偏好设置结果的准确率。为此，我们计划研究寻找问题组合的技术，以最大化预测方案的准确率。此外，通过不同的用户组和实验设置重复该实验，可以丰富本文得出的结论和泛化能力，因此，在研究路线图中，我们计划收集欧洲用户的数据。最后，我们计划通过真实用户评估该概念验证，并使系统能够在用户开始与相关服务交互时从用户的隐私偏好中学习。

您可能感兴趣的与本文相关的镜像