
机器学习基础
文章平均质量分 86
Bayesian小孙
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习基础(七)——k-means聚类
1、随机设置K个特征空间内的点作为初始的聚类中心2、对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中心点作为标记类别3、接着对着标记的聚类中心之后,重新计算出每个聚类的新中心点(平均值)4、如果计算得出的新中心点与原中心点一样,那么结束,否则重新进行第二步过程k-means聚类:开始的聚类中心数量:初始化方法,默认为’k-means ++’:默认标记的类型,可以和真实值比较(不是值比较)一般应用场景的流程:1、降维之后的数据2、k-means聚类3、聚类结果显示轮廓系数...原创 2022-07-11 17:33:55 · 638 阅读 · 0 评论 -
机器学习基础(六)——逻辑回归Logistic Regression
逻辑回归是用来做二分类任务的,输出为:hθ(x)=g(θTx)=11+e−θTxh_\theta(x)=g(\theta^Tx)=\frac{1}{1+e{-\theta^Tx}}hθ(x)=g(θTx)=1+e−θTx1g(z)=11+e−zg(z)=\frac1{1+e^{-z}}g(z)=1+e−z1其中,zzz是线性回归的结果。cost(hθ(x),y)={−log(hθ(x))y=1−log(1−hθ(x))y=0cost(h_\theta(x),y)=\left\{原创 2022-07-11 17:28:24 · 1390 阅读 · 1 评论 -
机器学习基础(五)——线性回归/岭回归/lasso回归
线性回归的本质就是:y=wTx+by = w^Tx+by=wTx+b求解:wTw^TwT(wT,b)(w^T,b)(wT,b)是系数(coefficient),xxx是特征值,yyy是目标值(label)。目的是找到最小损失对应的W:通常有两种方法,一种是正规方程,一种是梯度下降。(1)正规方程:w=(XTX)−1XTyw = (X^TX)^{-1}X^Tyw=(XTX)−1XTy(2)梯度下降:α\alphaα为学习速率,需要手动指定,沿着函数下降的方向找到山谷的最低点,每一步更新www值。1、加州地区房原创 2022-07-05 20:08:38 · 1894 阅读 · 0 评论 -
机器学习基础(四)——决策树与随机森林
一、知识概要(一)决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法。信息熵:H=−(p1logp1+p2logp2+...p3logp3) H = -(p_1logp_1+p_2logp_2+...p_3logp_3)H=−(p1logp1+p2logp2+...p3logp3)H称之为信息熵,单位为比特。32支球队,log32=5比特;64支球队,log64=6比特当这32支球队夺冠的几率相同时,对应的信息熵等于原创 2022-07-04 17:11:14 · 1789 阅读 · 1 评论 -
机器学习基础(三)——KNN/朴素贝叶斯/交叉验证/网格搜索
(1)KNN概念:k个最近的邻居,即每个样本都可以用它最接近的k个邻居来代表。(K Near Neighbor)(2)算法思想:一个样本与数据集中的k个样本最相似, 如果这k个样本中的大多数属于某一个类别, 则该样本也属于这个类别。(3)距离度量:一般是用欧式距离,L2范数即可。(4)K值的选择:如果选择较小的K值,相当于在较小的邻域中进行预测,学习的近似误差会减小;缺点是学习的估计误差会增大。如果邻近点恰巧是噪声,预测就会出错。K值减小就意味着整体模型变复杂,容易发生过拟合。如果选择较大K值,就相当于用较原创 2022-07-02 14:52:37 · 1363 阅读 · 0 评论 -
机器学习基础(二)——训练集和测试集的划分
注意返回值:训练集 train x_train, y_train 测试集 test x_test, y_test以上展示了两种不同类型的数据集,一种target为离散型(类别),一种为连续型(价格)。fit( ): Method calculates the parameters μ and σ and saves them as internal objects.可以理解为在对数据集进行转换操作之前,对数据的一些基本属性如:均值,方差,最大值,最小值做个类似pd.in原创 2022-06-28 16:14:41 · 6948 阅读 · 1 评论 -
机器学习算法基础(一)
1.1 分类特征变量提取方法: cv.fit_transform() 里面传入data目的: 将数据转换成目标类型的列表1.2 文本特征提取1.2.1 文档中词的出现说明: 1表示出现,0表示这个词没有出现将文本文档的集合转换为计数矩阵(scipy.sparse matrices)方法: cv.fit_transform(raw_documents,y)目的: 学习词汇词典并返回词汇文档矩阵toarray() 的方法将输出的数据numpy的数组形式1.2.2 tf-idf词的重要性表示skl原创 2022-06-25 21:41:34 · 405 阅读 · 0 评论