主要内容:
- 相似度(Similarity) (can be used for classification and regression)
- 距离函数(Distance Function)
- Nearest - Neighbor
- Hierarchical Clustering
- K-Mean
——————————————————————————————————
width="800" height="830" src="http://www.infocaptor.com/bubble-my-page?size=800&mode=embed&url=http://blog.youkuaiyun.com/u014135091/article/details/48157375" frameborder="0" scrolling="no">
(一)相似度
相似度是很多数据科学方法和商业解决方案的基础。如果对象之间相似,那么它们共享着很多其他的属性。利用相似度我们可以对事物进行归类,并在此基础上做出各种决策。以下是几个例子:
- 寻找与优质客户相似的客户
- 对用户进行分类
- 推荐系统
- 医学和法律中,依据相似案例来解决问题
将分析的对象数据化之后,我们便可以引进距离函数来衡量对象之间的相似程度。利用对象之间的距离我们便可以对对象空间进行划分,进而得到不同的组别。
Note:
对象属性数据化时会有Heterogeneous Attributes
主要是 Numeric 和 Categorical 两大类
其中Numeric 型数据需要注意的是数据的Scale 和 Range
(二)距离函数
- L1-norm(曼哈顿距离)
- L2-norm(欧拉距离)
- Jaccard distance(将两个对象看成集合,运用集合运算、集合中元素数量来构造)
- Cosine distance (余弦函数距离,可以忽略向量大小)[ignore differences in scale]
- edit distance
用于度量两个字符串之间的差异
例如:【1113 Bleaker St. 】 【113 Bleecker St.