
数据分析
wangyanao520
python
展开
-
初入数据分析跟python解方程
1.众数(频数)、均值、中位数距:分成4份,反向距离的变动,排序后最大值减去最小值的四分位点四分位数:1,1,1,1, (6,7,8,9,)(10,12,14,15,) 16,110,120,121上四分位点 :6 下四分位点:16距:上-下=距方差:1,2,3,4先算平...原创 2018-11-05 21:58:15 · 525 阅读 · 0 评论 -
L1正则化方法(lasso)和L2(ridge)正则化方法的区别
L1正则化和L2正则化可以看做是损失函数的惩罚项,惩罚就是损失函数中的某些参数做了一些限制对于线性回归模型,使用 L1 正则化的模型叫做 Lasson 回归,使用 L2 正则化的模型叫做 Ridge 回归(岭回归)。L1和L2正则化的线性回归:minw12nsamples||Xw−y||22+α||w||1 (式中加号后面一项α||w||1即为L1正则化项)minw12nsample...原创 2018-11-21 09:57:34 · 5263 阅读 · 2 评论 -
欠拟合与过拟合
欠拟合与过拟合的区别欠拟合是指模型在训练集、验证集和测试集上均表现不佳的情况过拟合是指模型在训练集上表现很好,到了验证和测试阶段就大不如意了,即模型的泛化能力很差欠拟合和过拟合一直是机器学习训练中的难题,在进行模型训练的时候往往要对这二者进行权衡,使得模型不仅在训练集上表现良好,在验证集以及测试集上也要有出色的预测能力。解决欠拟合(高偏差)的方法1.模型复杂化对同一个算法复杂化。例如回...转载 2018-11-16 21:59:10 · 1203 阅读 · 0 评论 -
KNN算法总结
KNN算法即在一个训练数据集中来了一个新的输入实例,在训练集中找到与这个新的实例最近的K个邻居,在k的邻居中,有多个实例属于已知的类,那么把这个已知的类作为这个新实例所属的类别。也就是用投票法(少数服从多数)。由于用投票法,所以k值一般取奇数。但是K值得大小选取有要求:首先,如果k值选取太小,就相当于以待分类的实例为中心,在较小的邻域内,以该邻域内的邻居的类别来为新实例分类,那么就意味着我们的...原创 2018-11-22 16:43:28 · 1314 阅读 · 0 评论 -
K-means 算法(基本用法)
1.聚类的概念:一种无监督的学习,事先不知道类别,自动将相似的对象归到同一个簇中K-Means算法是一种聚类分析的算法,主要是来计算数据聚类的算法,主要通过不断地取离种子点最近均值的算法如上图中,A,B,C,D,E是五个在图中点。灰色的为中心点。所以也就是有两个种子点。把五个图中点分别聚合到灰色的中心点。然后,K-Means的算法如下:随机在图中取K(这里K=2)个种子点。然后对图中...原创 2018-11-24 15:54:01 · 10568 阅读 · 0 评论