(4)Data.Part3.SimilarityAndDissimilarity

本文深入探讨了数据个体之间的相异性与相一致性概念,解释了它们的数学定义与转换方法,并介绍了适用于不同数据类型的计算方式。进一步阐述了如何处理不同尺度的变量、属性间具有相关性及不同属性类型的数据,提供了多种度量距离和相似性的方法,如欧氏距离、曼哈顿距离、Jaccard系数和余弦相似度等。

相似性和相异性(区别性,不同性)

      相似性就是两个数据个体间的相似程度嘛,相异性就是相对的概念咯。相异性也就是距离,如果我们把数据个体看做是向量,那么相异性就是两个向量间的距离了。

相似性与相异性的转换

      相似性和相异性通常都用区间[0,1]内的数值来表示。这两种值是负相关的,因此理论上任意单调递减的函数都可以用来进行两种值的转换。比如定义s为相似性的值,d为相异性的值,辣么s=1-d,d=1-s就是一种合理的转换。

简单属性值之间的相似性与相异性

      对于nominal类型而言,唯一能做的就是比较看两个值是否相同了,那么可以定义相似性为s=1,if 两个值相同,否则s=0。相异性的取值反之。对于ordinal,可以把取值符号都映射成数字,比如{1,2,3,4,5},那么可以定义相异性d为两个取值的差,或者差再除以最大取值与最小取值的差。注意这里假设了相等的间距,这个假设可能不太合理。对于interval和ratio类型的属性而言,可以用差的绝对值来定义相异性。

数据个体间的相异性

      数据个体的相异性可以简单定义为两个数据个体所表示向量的距离,比如可以用欧氏距离来衡量:


事实上,欧氏距离是Minkowski距离的一种情况:

Minkowski Distance:  

对于上式,当r=1时就是曼哈顿距离了,当r=2就是欧氏距离(即L2 norm),当r=无穷大时就是Lmax norm。

距离具有以下一些属性。

1.Positivity

       

       当x=y时

2.对称性

       

3.三角形定理

       

三角形定理可以用来加速某些依赖于距离度量的操作。注意有很多相异性是不满足以上某些式子的。

数据个体间的相似性

      对Binary数据的距离的衡量。

Simple Matching Coefficient(SMC)

      SMC=取值相同的属性数/总属性数

SMC不适用与非对称的Binary数据,JaccardCoefficient比较适合,因为它忽略了零值的匹配。

      J=取值相同且非零的属性数/总属性数

余弦相似性,类似于Jaccard,忽略了零值的匹配,比较适合处理非对称数据。同时,余弦忽略了magnitude的影响,通过正规化得到只与方向有关的一个度量。

       杠杠x,杠杠y,  即两个向量的点积除以两个长度(L2 norm)

还有一种Jaccard Coefficient的扩展,可以用来计算非Binary的向量的相似性:


       

最后在提一个相关系数(Correlation),这是一个衡量两个数据个体的线性相关性的量。常用的是Pearson's Correlation。

       ,这里cov是协方差,std是标准差


...

       

相似性相异性相关问题

如何处理不同Scale的变量---标准化

如何处理属性间具有相关性的数据---Mahalanobis Distance

如何处理不同类型的属性(比如有的属性是nominal有的是interval):

       ,这里的 取0或者1。当第k个属性是非对称属性,且两个数个体的对应属性去0时,或者其中一个的值缺失时,取0,否则取1。此外还可以对属性们赋予不同的权重值。

 

下载前可以先看下教程 https://pan.quark.cn/s/a426667488ae 标题“仿淘宝jquery图片左右切换带数字”揭示了这是一个关于运用jQuery技术完成的图片轮播机制,其特色在于具备淘宝在线平台普遍存在的图片切换表现,并且在整个切换环节中会展示当前图片的序列号。 此类功能一般应用于电子商务平台的产品呈现环节,使用户可以便捷地查看多张商品的照片。 说明中的“NULL”表示未提供进一步的信息,但我们可以借助标题来揣摩若干核心的技术要点。 在构建此类功能时,开发者通常会借助以下技术手段:1. **jQuery库**:jQuery是一个应用广泛的JavaScript框架,它简化了HTML文档的遍历、事件管理、动画效果以及Ajax通信。 在此项目中,jQuery将负责处理用户的点击动作(实现左右切换),并且制造流畅的过渡效果。 2. **图片轮播扩展工具**:开发者或许会采用现成的jQuery扩展,例如Slick、Bootstrap Carousel或个性化的轮播函数,以达成图片切换的功能。 这些扩展能够辅助迅速构建功能完善的轮播模块。 3. **即时数字呈现**:展示当前图片的序列号,这需要通过JavaScript或jQuery来追踪并调整。 每当图片切换时,相应的数字也会同步更新。 4. **CSS美化**:为了达成淘宝图片切换的视觉效果,可能需要设计特定的CSS样式,涵盖图片的排列方式、过渡效果、点状指示器等。 CSS3的动画过渡特性(如`transition``animation`)在此过程中扮演关键角色。 5. **事件监测**:运用jQuery的`.on()`方法来监测用户的操作,比如点击左右控制按钮或自动按时间间隔切换。 根据用户的交互,触发相应的函数来执行...
垃圾实例分割数据集 一、基础信息 • 数据集名称:垃圾实例分割数据集 • 图片数量: 训练集:7,000张图片 验证集:426张图片 测试集:644张图片 • 训练集:7,000张图片 • 验证集:426张图片 • 测试集:644张图片 • 分类类别: 垃圾(Sampah) • 垃圾(Sampah) • 标注格式:YOLO格式,包含实例分割的多边形点坐标,适用于实例分割任务。 • 数据格式:图片文件 二、适用场景 • 智能垃圾检测系统开发:数据集支持实例分割任务,帮助构建能够自动识别分割图像中垃圾区域的AI模型,适用于智能清洁机器人、自动垃圾桶等应用。 • 环境监控与管理:集成到监控系统中,用于实时检测公共区域的垃圾堆积,辅助环境清洁治理决策。 • 计算机视觉研究:支持实例分割算法的研究优化,特别是在垃圾识别领域,促进AI在环保方面的创新。 • 教育与实践:可用于高校或培训机构的AI课程,作为实例分割技术的实践数据集,帮助学生理解计算机视觉应用。 三、数据集优势 • 精确的实例分割标注:每个垃圾实例都使用详细的多边形点进行标注,确保分割边界准确,提升模型训练效果。 • 数据多样性:包含多种垃圾物品实例,覆盖不同场景,增强模型的泛化能力鲁棒性。 • 格式兼容性强:YOLO标注格式易于与主流深度学习框架集成,如YOLO系列、PyTorch等,方便研究人员开发者使用。 • 实际应用价值:直接针对现实世界的垃圾管理需求,为自动化环保解决方案提供可靠数据支持,具有重要的社会意义。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值