16、相似度函数:解锁数据相似性的密码

相似度函数:解锁数据相似性的密码

1. 理解相似度函数

当我们提及相似性时,首先会想“在何种意义上相似呢”?为了缩小范围,我们基于用户的品味来定义相似性。例如,两个人可能因为都喜欢汤姆·汉克斯主演的电影、科幻电影或者时长较长的“全晚电影”(在丹麦,这种电影时长超过两小时四十五分钟)而被认为品味相似。然而,即便都喜欢科幻电影的人,喜好也可能不同,比如一个喜欢《星际迷航》,另一个喜欢《星球大战》,他们算相似吗?

我们可以通过多种方式计算相似度,总体问题可定义为:给定两个项目 $i_1$ 和 $i_2$,它们之间的相似度由函数 $sim(i_1, i_2)$ 给出。该函数返回值越大,表明两个项目越相似。相同项目的相似度为 $Sim(i_1, i_1) = 1$,而毫无共同之处的两个项目相似度为 $Sim(i_1, 与i_1无共同之处) = 0$。

相似度测量与项目间距离的计算密切相关,一般来说,相似度和距离的关系如下:
- 当距离增大时,相似度趋近于零。
- 当距离趋近于零时,相似度趋近于一。

2. 不同数据类型对应的相似度方法

不同的相似度方法适用于不同的数据集,以下是不同数据类型及其适用的相似度方法:
| 数据类型 | 数据示例 | 相似度方法 |
| — | — | — |
| 一元数据:仅包含喜欢或购买项目的交易数据 | 用户 1 喜欢电影 2
用户 2 喜欢电影 2
用户 3 喜欢电影 1 | Jaccard 相似度 |
| 二元数据:有两种可能值的数据,如喜欢/不喜欢 | 用户 1 不喜欢电影 1
用户 1 喜欢电影 2
用户 2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值