
数据挖掘
杨良全
菜鸟,对机器学习、数据挖掘等感兴趣。
展开
-
数据挖掘和机器学习中距离和相似度公式
距离:闵可夫斯基距离公式,也叫 Lp 范数:当p=1时,变为曼哈顿距离公式,也即 L1范数:当p=2时,变为欧式距离公式,也即 L2范数:衡量空间中点的绝对距离,对绝对数值敏感。相似性:余弦相似:皮尔逊相关系数,即相关分析中的相关系数,对两个个体的向量基于总体标准化后计算向量夹角的余弦值:Jaccard相似系数,主要用于计原创 2017-07-26 19:04:26 · 1479 阅读 · 0 评论 -
社交网络研究公共数据
https://cn.aminer.org/influencelocality ----from "Social Influence Locality for Modeling Retweeting Behaviors"http://an.kaist.ac.kr/traces/WWW2010.htmlhttp://www.kddcup2012.org/c/kddcup20原创 2016-08-27 10:14:46 · 895 阅读 · 0 评论 -
机器学习中的矩阵分解方法
基于郭栋老师的教学PPT,配上相关paper和资料,做到对矩阵分解技术有个大致了解。一个假设:数据由有限的潜在因子决定,数据样本的观测值是潜在因子的一个映射。矩阵分解发展历史:经典的方法PCA,SVD这里就不说了,2003年提出的topic model LDA,听说当时可是火了一把。重点推荐几种矩阵分解方法:概率矩阵分解(PMF),由深度学习大牛Rusl原创 2017-07-28 13:50:48 · 3689 阅读 · 0 评论