
机器学习
文章平均质量分 53
小白不白`
分享自己的学习笔记
展开
-
sklearn.cluster.KMeans中的参数介绍
kmeans++表示该初始化策略选择的初始均值向量之间都距离比较远,它的效果较好;或者提供一个数组,数组的形状为(n_cluster,n_features),该数组作为初始均值向量。表示是否提前计算好样本之间的距离,auto表示如果nsamples*n>12 million,则不提前计算。用不同的聚类中心初始化值运行算法的次数,最终解是在inertia意义下选出的最优结果;1表示每隔一段时间打印一次日志信息。若值为 -1,则用所有的CPU进行运算。表示随机数生成器的种子。表示算法收敛的阈值。原创 2022-11-27 12:09:55 · 2896 阅读 · 0 评论 -
支持向量机(sklearn.svm.svc)中的参数
在拟合(fit)模型之前启用,启用之后会减缓拟合速度,但是拟合之后,模型能够输出各个类别对应的概率。核函数,{‘linear’, ‘poly’, ‘rbf’, ‘sigmoid’, ‘precomputed’},默认值为’rbf’。(5) precomputed:预训练好的核函数对应的Gram 矩阵 优点: 不用再次拟合核函数对应的Gram 矩阵,直接进行映射。‘rbf’, ‘poly’ 和‘sigmoid’ 核函数的系数, {‘auto’, ‘scale’},默认值为‘scale’。原创 2022-11-17 19:19:32 · 5894 阅读 · 0 评论 -
决策树可视化和DecisionTreeClassifier中的参数介绍
这个值限制了叶子节点所有样本权重和的最小值,如果小于这个值,则会和兄弟节点一起被剪枝。如果特征不多,可以不考虑这个值,但是如果特征多,可以加限制,具体的值可以通过交叉验证得到。这个值限制了叶子节点最少的样本数,如果某叶子节点数目小于样本数,则会和兄弟节点一起被剪枝。一般数据比较少或者特征少的时候可以不用管这个值,如果模型样本数量多,特征也多时,推荐限制这个最大深度,具体取值取决于数据的分布。限制决策树的增长,节点的不纯度(基尼系数,信息增益,均方差,绝对差)必须大于这个阈值,否则该节点不再生成子节点。原创 2022-11-17 18:50:15 · 1269 阅读 · 0 评论 -
机器学习knn分类(KNeighborsClassifier)中的参数
KNeighborsClassifier(n_neighbors=5,weights=’uniform’,algorithm=’auto’,leaf_size=30,p=2,metric=’minkowski’,metric_params=None,n_jobs=1,**kwargs)参数说明:n_neighbors: int, 可选参数(默认为 5)用于kneighbors查询的默认邻居的数量原创 2022-11-08 10:45:00 · 5437 阅读 · 0 评论 -
基于逻辑回归的分类可视化方法(python)
用python实现逻辑回归分类模型的可视化展示。原创 2022-10-22 15:25:18 · 1159 阅读 · 0 评论 -
逻辑回归(LogisticRegression)中的参数(详解)
LogisticRegression(penalty='l2', dual=False, tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1, class_weight=None, random_state=None, solver='liblinear', max_iter=100, multi_class='ovr', verbose=0, warm_start=False, n_jobs=1)原创 2022-10-22 09:42:47 · 10388 阅读 · 0 评论 -
python实现多项式回归
线性回归法有一个很大的局限性,要求假设数据背后是存在线性关系的,但是对于实际应用场景当中,具有线性关系比较强的数据集太少了,更多的是具有非线性关系的数据集。学习线性回归时,对于某些数据,我们想要找一条直线,让这条直线尽可能的拟合这些数据,如果这些数据只有一个特征的话,相应的直线就是y=ax+b,x是样本特征,a和b就是我们需要求的模型参数。相当于将原来的一个x特征变换成为多个x特征,增加这些特征后,就可以用(多元)线性回归的方式更好的拟合原来的数据,但是本质上求出了我们对于原来的特征而言的非线性的曲线。原创 2022-10-08 11:39:28 · 1618 阅读 · 0 评论 -
梯度下降与最小二乘法的区别(详解)
两种方法都是在已知数据的框架内,使得估算值与实际值的总平方差尽量更小(事实上,在梯度下降时会更倾向于使用均方差,即总方差除以样本数,以避免损失值过大的问题。(1)实现方法不同。最小二乘是通过对自变量和因变量进行数学变换求导,直接到达最低点,不需要透代(不给参数θ的值,直接求出最优θ);而梯度下降是先估计一组参数,然后按照梯度的反方向修正参数,反复迭代获取最低点(给参数θ的值,逐步得到最优θ)。最小二乘是1(找到解)或者0(矩阵不可求逆,无解)的问题;而梯度下降则是结果是0.x(对精确解逐步逼近1)的问题。原创 2022-10-08 10:55:35 · 4463 阅读 · 0 评论 -
梯度下降算法原理——学习笔记
在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。比如函数f(x,y), 分别对x,y求偏导数,求得的梯度向量就是(∂f/∂x, ∂f/∂y)T,简称grad f(x,y)或者▽f(x,y)。对于在点(x0,y0)的具体梯度向量就是(∂f/∂x0, ∂f/∂y0)T.或者▽f(x0,y0),如果是3个参数的向量梯度,就是(∂f/∂x, ∂f/∂y,∂f/∂z)T,以此类推。这个梯度向量的几何意义就是函数变化增加最快的地方。原创 2022-10-08 10:17:38 · 371 阅读 · 0 评论 -
线性回归模型之最小二乘法(python实现)
最小二乘法(Ordinary Least Square, OLS)是用数学公式直接求解线性回归方程的参数的方法。以最简单的一元线性回归为例,公式6-4中显示一系列的X值可以求出一系列的预测值Y’,的目的是使得每一对预测的Y’和Y之间的误差(Y- Y’)最小化。由于误差有正误差有负误差,为了避免彼此抵消,需要使用误差的平方来衡量。虽然绝对值也可以避免误差抵消,但是绝对值的代数计算性不如平方好,不便于求微分。二乘表示平方,最小二乘法就表示求误差平方和最小的方法。原创 2022-10-03 16:03:16 · 4219 阅读 · 1 评论