语音数据发布中的隐私保护与性能评估
1. 语音数据清洗方法
1.1 词汇列表生成
首先,通过基尼指数选择最佳划分属性 ( a^{ } ),公式为 ( a^{ }= \arg \min_{a\in A} GiniIndex(D, a) ),其中 ( A ) 是属性集。基尼值 ( Gini(D) ) 计算方式为 ( Gini(D) = 1 - \sum_{k=1}^{K} p_{k}^{2} ),这里 ( K ) 指 ( D ) 中标签的数量, ( p_{k} ) 表示 ( D ) 中具有标签 ( label_{k} ) 的实例比例。
基于上述方法,可得到三个二分类分类器,每个分类器生成一个包含儿童、青少年或成人词汇的词汇列表,分别记为 ( g_{1} )、 ( g_{2} )、 ( g_{3} )。由于分类器相互独立,一个词可能同时存在于多个列表中,可通过以下步骤解决:
- ( G_{1} = g_{1} - g_{1} \cap g_{2} - g_{1} \cap g_{3} )
- ( G_{2} = g_{2} - g_{2} \cap g_{1} - g_{2} \cap g_{3} )
- ( G_{3} = g_{3} - g_{3} \cap g_{1} - g_{3} \cap g_{2} )
1.2 语音内容清洗
使用 TF - IDF 算法量化单词的重要性,风险 ( P_{s}^{t} ) 由特定公式给出。清洗过程是替换或删除部分关键词以降低 ( P_{s}^{t} ),关键词指那些 ( tf - idf ) 值大于数据发布者预定义阈值 ( \lambda )