机器学习中几何的新应用与拓扑数据分析工具
1. 几何在机器学习中的新应用
在解决一些可能为凸问题的算法中,当前的方法正不断改进,通过放宽数学假设来提高准确性。有研究发现,许多统计模型(如Lasso、时间序列数据的ARIMA模型和贝叶斯网络)的众多可能解的局部几何存在重叠。这导致算法在模型空间中难以区分潜在的预测变量集或参数值,尤其是在常用的样本规模下。
解决此问题的方法有两种:一是在前文提到的切空间中拟合模型;二是使用数值代数几何而非线性代数进行优化。这表明数值代数几何和其他非线性方法在机器学习算法中有直接应用,可提升算法性能和模型拟合度。不过,目前R语言中还没有实现这些算法的包,所以暂不举例深入探讨。
2. 使用HodgeRank比较选择排名
辨别客户群体的选择偏好是常见的机器学习任务。例如,公司可能让客户对软件新功能列表进行比较,以确定工程团队来年的工作优先级。比较选择排名还有助于公司向现有用户推销新产品和服务,制定针对畅销产品的新营销活动。
以海滩活动偏好排名为例,最初有三项活动:躺在沙滩上、游泳和冲浪,其中冲浪最受欢迎。若加入第四项活动风筝冲浪,且它比其他三项都受欢迎,排名计算仍相对容易。但在现实数据中,信息往往不完整,还可能存在偏好循环。
现有的许多成对排名比较算法(如SVMRank、PageRank等)通常无法提供关于排名中局部和全局不一致性的信息,而代数几何中的HodgeRank算法可以解决这一问题。它基于Hodge - Helmholtz分解定理,将向量流(或图上的流)分解为三个不同的分量:
- 梯度流:局部和全局都一致。
- 旋度流:局部一致但全局不一致。
- 调和流:
超级会员免费看
订阅专栏 解锁全文
848

被折叠的 条评论
为什么被折叠?



