距离度量、K值选择与房屋价值评估
1. 距离度量方法
1.1 余弦相似度(Cosine Similarity)
余弦相似度也被称为余弦距离,它的优势在于计算稀疏向量间距离时速度极快。例如,若收集了房屋的1000个属性,其中300个属性是互斥的(即一个房屋有这些属性而其他房屋没有),那么在计算时只需考虑700个维度。
从直观上看,它衡量的是两个向量的内积空间,并以余弦值作为度量。其函数为:
[d(x, y) = \frac{x \cdot y}{|x| |y|}]
其中,(|x|) 表示前文提到的欧几里得距离。
1.2 计算距离(Computational Distances)
1.2.1 欧几里得距离示例
假设要测量从华盛顿州肯莫尔的圣爱德华州立公园(47.7329290, -122.2571466)到华盛顿州西雅图国会山的Vivace Espresso(47.6216650, -122.3213002)的距离。使用欧几里得距离计算如下:
[ \sqrt{(47.73 - 47.62)^2 + (-122.26 + 122.32)^2} \approx 0.13 ]
这个结果是以经纬度度数表示的,数值较小。将其转换为英里,需乘以69.055,约为8.9英里(14.32公里),但实际距离是14.2英里(22.9公里),误差较大。这是因为地球是椭球体,距离计算会因地理位置而异,但对于短距离来说,69.055这个近似值还算可用。
1.2.2 曼哈顿距离(Manhattan Distance)
曼哈顿距离也称为出租车距离,其计算公式为
超级会员免费看
订阅专栏 解锁全文
15

被折叠的 条评论
为什么被折叠?



