
python数据分析
z754916067
这个作者很懒,什么都没留下…
展开
-
DBSCAN聚类算法
DBSCANDBSCAN是一种非常著名的基于密度的聚类算法。其英文全称是 Density-Based Spatial Clustering of Applications with Noise,意即:一种基于密度,对噪声鲁棒的空间聚类算法。直观效果上看,DBSCAN算法可以找到样本点的全部密集区域,并把这些密集区域当做一个一个的聚类簇。DBSCAN算法具有以下特点:基于密度,对远离密度核心的噪声点鲁棒无需知道聚类簇的数量可以发现任意形状的聚类簇DBSCAN通常适合于对较低维度数据进行聚类分析转载 2020-06-03 21:39:53 · 2127 阅读 · 0 评论 -
线性拟合
一元线性回归import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegressionfrom sklearn.metrics import r2_scoreimport statsmodels.api as smdata = pd.read_csv(r"C:\Users\yjr\Desktop\Advertising.csv")转载 2020-06-03 18:16:48 · 558 阅读 · 0 评论 -
杰卡德相似系数与杰卡德距离
杰卡德相似系数两个集合A和B的交集元素在A,B的并集中所占的比例,称为两个集合的杰卡德相似系数。杰卡德相似系数是衡量两个集合的相似度一种指标。代码def jaccard_coefficient(a, b): set_a = set(a) set_b = set(b) #set1 & set2求的是交集,就是共同拥有的元素 #set1 | set2求的是并集,相当于合并集合且不包括重复元素 distance = float(len(set_a & s原创 2020-06-03 14:03:36 · 1285 阅读 · 0 评论 -
皮尔逊相关性与余弦相似度
皮尔逊相关性是什么皮尔逊是一种相关性度量方法,主要依靠计算得出的皮尔逊相关系数度量。皮尔逊相关系数输出范围为-1到+1,0代表无相关性,负值为负相关,正值为正相关。几何上来讲,皮尔逊相关系数是余弦相似度在维度值缺失情况下的一种改进。皮尔逊系数就是在使用cos计算两个向量(cos<a, b> = a • b / |a|•|b|)时进行中心化。余弦相似度(余弦距离)计算的是两个向量在空间中的夹角大小, 值域为[-1, 1]: 1代表夹角为0°, 完全重叠/完全相似; -1代表夹角为180原创 2020-06-03 13:32:49 · 8250 阅读 · 0 评论