提升语音数据发布中的隐私保护
1. 引言
在当今数字化时代,语音数据的应用越来越广泛,如谷歌导航、Siri、智能客服等。然而,语音数据的发布也带来了隐私泄露的风险。恶意消费者可能会从发布的语音数据中推断出说话者的私人信息,或者通过模仿受害者的声音发布侮辱性声明。因此,在将语音数据发布给数据消费者之前,对其进行清理以保护隐私是非常必要的。
2. 预备知识
2.1 语音数据模型
语音数据发布涉及三方:说话者、数据发布者和数据消费者。当说话者查询基于语音的服务时,数据发布者会收集他们的语音数据。为了利益,数据发布者可能会将收集到的语音数据共享给第三方,即数据消费者。数据消费者可能是研究机构,也可能是恶意消费者。
语音数据集可以表示为 (D = (cate, S)),其中 (cate) 是数据集描述,(S) 是语音数据,由语音内容 (c) 和说话者的声音 (v) 组成,即 ((c, v) \in S)。说话者的声音暗示了用户的身份信息,并且语音内容和说话者的声音之间存在映射关系 (F: c \to v),我们称之为 (v) 和 (c) 之间的相关性。
例如,儿童的语音数据通常不涉及成人关注的话题,如养老金、工资等;而成人的语音数据也不涉及儿童话题,如去幼儿园、买棒棒糖等。
2.2 攻击模型
- 攻击模型假设 :攻击者预先从目标用户的背景信息中获取了一些属性。虽然数据发布者在发布语音数据之前会删除用户的个人身份信息(PII),但这并不能完全保护用户的隐私,因为除了 PII,语音数据的 (cate)、(v) 和 (c) 也暗示了用户的