自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 简单易懂无监督分类算法:Kmeans, MiniBatchKmeans和DBSCAN

DBSCAN与KMeans不同,它是一种基于密度分类的聚类算法。

2022-12-23 18:16:25 637

原创 一文全解:ID3,CART和C4.5的区别与联系

生长的过程是每次对某一个样本进行一次切分(将节点的样本一分为二)。所以CART可以对同一个样本进行多次切分,(ID3则是消耗了某一个特征,不再进行同一个特征的切分。每次切分就是按照特征中的离散值的个数进行切分,特征中有多少个离散值,就切分成为多少个子集。来对切分点和切分特征进行判断,每次选择最能减小不纯度的方案。来对切分点和切分特征进行判断,每次选择最能减小不纯度的方案。个离散值下的样本数量占总体样本的比值,该特征离散值越多,生长的过程是每次都对最能够下降不纯度的特征进行切分。来计算不纯度的计算。

2022-12-23 17:02:05 611

原创 机器学习随笔——Entropy Loss的本质

今天突然想到了logloss,也就是 cross-entropyloss。

2022-11-22 23:36:43 1692

原创 中餐厅过程Chinese restaurant process

中餐厅过程是狄利克雷过程的后验分布。第n个客人坐新桌的概率:第n个客人坐之前的k号桌的概率:可以通过不断更新客人坐在第几桌的离散概率,得到一个个簇。簇的数量是由alpha的大小决定,alpha越大,客人越趋向于坐新桌子;反之,客人越趋向于坐有人的桌子。可以通过代码与图像进一步理解这个过程。代码:​​​​​​https://github.com/SaberCali/Chinese-Restaurant-Progress-CRP-

2022-10-27 02:03:52 453

转载 SVM支持向量机详解(三)

先复习一下,上一章我们讲到了(1)最优解与凸函数,我们通过这一小节知道了我们的目标函数和限制条件下,整个问题是可以求解的,且一定存在最优解。(2)线性优化器的求解方法,我们通过这一个小结,知道了能将 我们的问题g(x)= wx+b 进行n维向量的变化,首先,我们知道w会被xi的坐标影响,因此w=α1x1+α2x2+…+αnxn(xi是样本点,αi是拉普拉斯算子(求最优解会有的一些参数),后来,我们想到w也受到y(样本的标签)的影响,因此w=w=α1y1x1+α2y2x2+…+αnynxn。yi不是向量,所以

2022-06-22 16:59:06 636

转载 SVM支持向量机详解(二)

目标函数和约束条件,可以用下面的式子表示:公式中一共有p+q个约束条件,其中p个是不等式约束,q个等式约束。关于这个式子可以这样来理解:式中的x是自变量,但不限定它的维数必须为1(视乎你解决的问题空间维数,对我们的文本分类来说,那可是成千上万啊)。要求f(x)在哪一点上取得最小值(反倒不太关心这个最小值到底是多少,关键是哪一点),但不是在整个空间里找,而是在约束条件所划定的一个有限的空间里找,这个有限的空间就是优化理论里所说的可行域。注意可行域中的每一个点都要求满足所有p+q个条件,而不是满足其中一条或几条

2022-06-21 17:38:33 429

原创 SVM支持向量机详解(一)

本文借鉴大神的博客,讲的非常好~SVM入门(一)至(三)Refresh - Jasper's Java Jacal - BlogJava要是我的文章讲的不够清晰,欢迎大家也去看看大神的文章。已经看过一些SVM的帖子或者资料的同学应该看到过这张图,这是一个二维的图像:正方形和圆形是不同的样本,中间的直线就是将这两个样本分割的函数。为什么叫他线性的,因为他是一个直线。那么在三维中,线性的分类函数就是一个平面。我们设这条线的方程为我们可以取阈值为0,这样当有一个样本xi需要判别的时候,我们就看g(xi)的值。若g

2022-06-20 22:54:52 1047

原创 机器学习之Stacking——模型融合

“特征提取决定模型上限,模型的选择就是不断接近这个上限。”在特征已经提取好的情况下,也选择好了机器学习模型算法,如何进一步提高模型的表现呢?Stacking方法就是一个可以帮助模型进一步提高的算法。类似于深度学习NNs,Stacking一般有两层机器学习模型,第一层机器学习模型群可以被看成NNs中的神经元,对原始的(处理好的)数据集进行训练,输出新的特征,给下一层的机器学习模型使用;第二层机器学习模型的学习‘材料’就是上一层的输出,第二层的输出是最后的预测结果。多个模型的集合,相当于NNs中的深层次的特征提

2022-06-18 16:58:30 2311

转载 机器学习集成学习-BOOSTING与BAGGING

集成算法(Emseble Learning) 是构建多个学习器,然后通过一定策略结合把它们来完成学习任务的,常常可以获得比单一学习显著优越的学习器。用于减少方差的bagging用于减少偏差的boosting 代表:随机森林:取弱分类器的结果取平均。代表:GradientBoosting、AdaBoost、LogitBoost。思想:增加前一个基学习器在训练过程中预测错误样本的权重,使得后续基学习器更加关注这些打标错误的训练样本,尽可能纠正这些错误,一直向下串行直至产生需要的T个基学习器,Boostin

2022-06-14 22:37:35 853

原创 Titanic 泰坦尼克之灾 | Kaggle| 入门 1

写这篇博客,有两个目的:1. 我是一个kaggle新手,刚刚完成这个入门项目,想做一个总结。2. 给别的小伙伴讲讲这个项目,顺便提升自己的理解。如果文中有问题,请在 评论区一起讨论,谢谢。流程总结:1. 观察数据,通常使用data.head() 和data.columns.unique()来观察数据的大概情况和特征情况。2. 数据清洗3. 特征提取4. 建立模型5. 输出结果像很多课程中的机器学习项目一样,titanic项目也是通过使用一组数据(特征)来完成对船上的人是否存活的预测。我们先来看看这个项目的数

2022-06-09 21:48:13 393

转载 决策树与随机森林

决策树与随机森林应该是MLer接触到最简单,最实用,最容易理解的ML算法。那么,具体是怎么实现回归的呢?看了下面这篇博客,算是更加理解了数学原理。(16条消息) 决策树与随机森林(从入门到精通)_Cyril_KI的博客-优快云博客_关于决策树与随机森林的描述正确的是zhttps://blog.youkuaiyun.com/Cyril_KI/article/details/107162316?ops_request_misc=%257B%2522request%255Fid%2522%253A%252216539112

2022-06-06 18:41:27 481

原创 刷题笔记——双指针

什么是双指针(对撞指针、快慢指针)双指针,指的是在遍历对象的过程中,不是普通的使用单个指针进行访问,而是使用两个相同方向(快慢指针)或者相反方向(对撞指针)的指针进行扫描,从而达到相应的目的。换言之,双指针法充分使用了数组有序这一特征,从而在某些情况下能够简化一些运算。双指针在排序,合并,查找等问题中非常常见,一个嵌套的循环、常规的遍历、都可以通过双指针来解决问题。有效降低时间复杂度。例子 Leetcode 88 合并有序数组class Solution: def merge(

2022-04-09 11:56:01 242

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除