数据科学与机器学习中的几何应用
1. 数据科学中的几何基础
在数据科学领域,度量几何发挥着关键作用,尤其在机器学习算法中。例如,在使用t - SNE(t分布随机邻域嵌入)算法时,不同的困惑度(perplexity)参数会显著影响数据的可视化结果。以下代码展示了如何在特定数据集上运行t - SNE,并设置不同的困惑度:
plot(as.data.frame(t2),xlab="Coordinate 1",ylab="Coordinate2",
main="Perplexity=15 t-SNE Results")
plot(as.data.frame(t3),xlab="Coordinate 1",ylab="Coordinate2",
main="Perplexity=25 t-SNE Results")
这段代码对特定数据集运行t - SNE,改变困惑度参数。较低困惑度的试验中数据更易聚集,而较高困惑度时数据分布更分散。随着困惑度增加,低维空间中坐标的范围会减小。不同的项目可能需要不同的数据分布状态,有些项目需要数据更分散以进行后续分析或可视化趋势,而有些项目则需要数据更紧凑以获得更好的结果。
| 困惑度 | 数据分布特点 |
|---|---|
| 低(如5) | 数据更聚集 |
| 高(如25) | 数据分布更分散,坐标范围减小 | <
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



