(4)Data.Part3.SimilarityAndDissimilarity

本文深入探讨了数据个体之间的相异性与相一致性概念,解释了它们的数学定义与转换方法,并介绍了适用于不同数据类型的计算方式。进一步阐述了如何处理不同尺度的变量、属性间具有相关性及不同属性类型的数据,提供了多种度量距离和相似性的方法,如欧氏距离、曼哈顿距离、Jaccard系数和余弦相似度等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

相似性和相异性(区别性,不同性)

      相似性就是两个数据个体间的相似程度嘛,相异性就是相对的概念咯。相异性也就是距离,如果我们把数据个体看做是向量,那么相异性就是两个向量间的距离了。

相似性与相异性的转换

      相似性和相异性通常都用区间[0,1]内的数值来表示。这两种值是负相关的,因此理论上任意单调递减的函数都可以用来进行两种值的转换。比如定义s为相似性的值,d为相异性的值,辣么s=1-d,d=1-s就是一种合理的转换。

简单属性值之间的相似性与相异性

      对于nominal类型而言,唯一能做的就是比较看两个值是否相同了,那么可以定义相似性为s=1,if 两个值相同,否则s=0。相异性的取值反之。对于ordinal,可以把取值符号都映射成数字,比如{1,2,3,4,5},那么可以定义相异性d为两个取值的差,或者差再除以最大取值与最小取值的差。注意这里假设了相等的间距,这个假设可能不太合理。对于interval和ratio类型的属性而言,可以用差的绝对值来定义相异性。

数据个体间的相异性

      数据个体的相异性可以简单定义为两个数据个体所表示向量的距离,比如可以用欧氏距离来衡量:


事实上,欧氏距离是Minkowski距离的一种情况:

Minkowski Distance:  

对于上式,当r=1时就是曼哈顿距离了,当r=2就是欧氏距离(即L2 norm),当r=无穷大时就是Lmax norm。

距离具有以下一些属性。

1.Positivity

       

       当x=y时

2.对称性

       

3.三角形定理

       

三角形定理可以用来加速某些依赖于距离度量的操作。注意有很多相异性是不满足以上某些式子的。

数据个体间的相似性

      对Binary数据的距离的衡量。

Simple Matching Coefficient(SMC)

      SMC=取值相同的属性数/总属性数

SMC不适用与非对称的Binary数据,JaccardCoefficient比较适合,因为它忽略了零值的匹配。

      J=取值相同且非零的属性数/总属性数

余弦相似性,类似于Jaccard,忽略了零值的匹配,比较适合处理非对称数据。同时,余弦忽略了magnitude的影响,通过正规化得到只与方向有关的一个度量。

       杠杠x,杠杠y,  即两个向量的点积除以两个长度(L2 norm)

还有一种Jaccard Coefficient的扩展,可以用来计算非Binary的向量的相似性:


       

最后在提一个相关系数(Correlation),这是一个衡量两个数据个体的线性相关性的量。常用的是Pearson's Correlation。

       ,这里cov是协方差,std是标准差


...

       

相似性相异性相关问题

如何处理不同Scale的变量---标准化

如何处理属性间具有相关性的数据---Mahalanobis Distance

如何处理不同类型的属性(比如有的属性是nominal有的是interval):

       ,这里的 取0或者1。当第k个属性是非对称属性,且两个数个体的对应属性去0时,或者其中一个的值缺失时,取0,否则取1。此外还可以对属性们赋予不同的权重值。

 

内容概要:本书《Deep Reinforcement Learning with Guaranteed Performance》探讨了基于李雅普诺夫方法的深度强化学习及其在非线性系统最优控制中的应用。书中提出了一种近似最优自适应控制方法,结合泰勒展开、神经网络、估计器设计及滑模控制思想,解决了不同场景下的跟踪控制问题。该方法不仅保证了性能指标的渐近收敛,还确保了跟踪误差的渐近收敛至零。此外,书中还涉及了执行器饱、冗余解析等问题,并提出了新的冗余解析方法,验证了所提方法的有效性优越性。 适合人群:研究生及以上学历的研究人员,特别是从事自适应/最优控制、机器人学动态神经网络领域的学术界工业界研究人员。 使用场景及目标:①研究非线性系统的最优控制问题,特别是在存在输入约束系统动力学的情况下;②解决带有参数不确定性的线性非线性系统的跟踪控制问题;③探索基于李雅普诺夫方法的深度强化学习在非线性系统控制中的应用;④设计验证针对冗余机械臂的新型冗余解析方法。 其他说明:本书分为七章,每章内容相对独立,便于读者理解。书中不仅提供了理论分析,还通过实际应用(如欠驱动船舶、冗余机械臂)验证了所提方法的有效性。此外,作者鼓励读者通过仿真实验进一步验证书中提出的理论技术。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值