(相似度、邻近及聚类)Similarity, Neighbors, and Clusters

主要内容:

  1. 相似度(Similarity) (can be used for classification and regression)
  2. 距离函数(Distance Function)
  3. Nearest - Neighbor
  4. Hierarchical Clustering
  5. K-Mean

——————————————————————————————————

width="800" height="830" src="http://www.infocaptor.com/bubble-my-page?size=800&mode=embed&url=http://blog.youkuaiyun.com/u014135091/article/details/48157375" frameborder="0" scrolling="no">

(一)相似度

相似度是很多数据科学方法和商业解决方案的基础。如果对象之间相似,那么它们共享着很多其他的属性。利用相似度我们可以对事物进行归类,并在此基础上做出各种决策。以下是几个例子:

 

  • 寻找与优质客户相似的客户
  • 对用户进行分类
  • 推荐系统
  • 医学和法律中,依据相似案例来解决问题

 

将分析的对象数据化之后,我们便可以引进距离函数来衡量对象之间的相似程度。利用对象之间的距离我们便可以对对象空间进行划分,进而得到不同的组别。

 

Note:

对象属性数据化时会有Heterogeneous Attributes

主要是 Numeric  和 Categorical  两大类

其中Numeric 型数据需要注意的是数据的Scale 和 Range

 

(二)距离函数

  • L1-norm(曼哈顿距离)

  • L2-norm(欧拉距离)

  • Jaccard distance(将两个对象看成集合,运用集合运算、集合中元素数量来构造)

  • Cosine distance  (余弦函数距离,可以忽略向量大小)[ignore differences in scale]

  • edit distance

用于度量两个字符串之间的差异

例如:【1113 Bleaker St.  113 Bleecker St.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值