数据对象、属性和相似性

最新推荐文章于 2024-11-02 09:57:09 发布

翻滚de蛋炒饭

最新推荐文章于 2024-11-02 09:57:09 发布

阅读量1.8k

点赞数

CC 4.0 BY-SA版权

分类专栏： Data Mining 文章标签：数据挖掘相似性计算属性类型

本文链接：https://blog.youkuaiyun.com/qq_36739040/article/details/99703297

15 篇文章

订阅专栏

别名：样本、实例、数据点或对象

一般使用属性对应属性值来描述数据对象

哈士奇：傻、大、黑白、撕家

一个数据字段，表示数据对象的一个特征。

别名：属性（DM）、维（数据仓库）、特征（ML）、变量

中心趋势度量：

度量数据散布：

数据矩阵： $D_{m*n}$ : 对象–属性结构， $d_{i*j}$ ：属性值。双模
相似 \ 异性矩阵： 对象–对象结构， $D_{m*m}$ ， $d_{i*j}$ ：相似 \ 异性。单模

m ：m个对象，n ：n个属性
单模（一种实体）、双模（两种实体）

属性	相似性	相异性	其他
标称	$\frac{m}{p}$	$\frac{p-m}{p}$ OR 1 - $\frac{m}{p}$	p：总数，m：匹配数目
二元	对称： $\frac{q+t }{sum}$ 、非对称：jaccard系数	$\frac{r+s}{sum}$ OR 1 - $\frac{q+t }{sum}$	二元属性列联表（混淆矩阵）（见下表）
数值（欧几里得距离）	$d_{ i j} = \sqrt{(x_{i1}-x_{j1})^2+(x_{i2}-x_{j2})^2+... +(x_{in}-x_{jn})^2}$
数值（曼哈顿距离）	$d_{ i j} = abs(x_{i1}-x_{j1}) +abs(x_{i2}-x_{j2}))+... +abs(x_{in}-x_{jn})$
数值（明可夫斯基距离）	$d_{ i j} = \sqrt[h]{(x_{i1}-x_{j1})^2+(x_{i2}-x_{j2})^2+... +(x_{in}-x_{jn})^2}$		别称： $L_p$ 范数
数值（上确界距离）	$d_{ i j} = \lim_{n \to \infty}(\sum_{f=1}^p (abs(x_{if}-x_{jf}))^h )^{\frac{1}{h}} =max_f^pabs(x_{if}-x_{jf})$		别称： $L_{max}、L_{\infty}$ 范数和切比雪夫范数
序数	$Z_{if} =\frac{R_{if}-1}{M_f-1}$ 然后使用数值属性距离度量计算 $Z_{if}$ 作为第 i 个对象的 f 属性值		M：有序状态数目有序状态 State：1… $M_f$ $R_{if}\in State$ $Z_{if}$ 为 $R_{if}$ 数据规格化后
混合	方法1：按不同类型分组，对每种进行分析		标称、二元、序数、数值都有
混合	方法2：一起处理 up = $\sum_{f=1}^Nq_{if}^{(f)}$ $d_{if}^{(f)}$ down = $\sum_{f=1}^Nq_{if}^{(f)}$ $d_{if}=\frac{up}{down}$		标称、二元、序数、数值都有 DM的Page50
余弦	Cos similarity		一般用于比较文档
余弦变种	$\frac{XY}{XX+YY-XY}$		Tanimoto系数\距离，常用于信息检索和生物学分类