基于贝叶斯网络的数据库自动去个性化与数据合成方法
1. 网络构建与新数据合成
初始数据具有自身的特征和联系。从机器学习理论基础可知,若处理集中的参数不携带额外语义信息,不应同时包含完全依赖的参数。因为该特征会被多次使用,权重增加,仅因使用频率就会降低其他参数的权重。例如,不应同时包含年龄和出生年份,因为它们存在线性关系 (f(y) = kx + b)。
根据贝叶斯定理,已知事件 (B) 发生时,事件 (A) 和 (B) 的概率公式为:
(P(A|B) = \frac{P(B|A)P(A)}{P(B)}),其中 (P(B) \neq 0)。
此公式不仅适用于离散值,也适用于连续值:
(f(X |Y) = \frac{f_{Y|X = x}(y)f_x(x)}{f_y(y)}),其中 (f_y(y) \neq 0)。
当前研究考虑到,若一个事件发生会排除其他事件,那么相关的依赖事件(若存在)也会被排除。利用这些理论,可先从原始数据计算概率并理解特征间的关系,进而构建贝叶斯网络。贝叶斯网络是一组可能存在相互因果关系的随机变量的联合概率分布的表示,它类似一个有向图,包含许多可能的值及其概率。
构建网络的算法步骤如下:
1. 去除噪声。
2. 用静态替换更新值(指定值、最小值/最大值、使用正则表达式模式/特定增量进行更改、缩放范围、考虑值的分布和步长)。
3. 选择特征 (X)。
4. 计算 (X) 特征每个参数的概率。
5. 选择特征 (Y)((Y \neq X))。
6. 计算 (Y) 特征每个值的 (P(Y|X))。
7. 将概率和值作为节点和边添加到网络中。
超级会员免费看
订阅专栏 解锁全文
753

被折叠的 条评论
为什么被折叠?



