yonsan_-优快云博客

原创简单易懂无监督分类算法：Kmeans, MiniBatchKmeans和DBSCAN

DBSCAN与KMeans不同，它是一种基于密度分类的聚类算法。

2022-12-23 18:16:25 637

原创一文全解：ID3，CART和C4.5的区别与联系

生长的过程是每次对某一个样本进行一次切分(将节点的样本一分为二)。所以CART可以对同一个样本进行多次切分，（ID3则是消耗了某一个特征，不再进行同一个特征的切分。每次切分就是按照特征中的离散值的个数进行切分，特征中有多少个离散值，就切分成为多少个子集。来对切分点和切分特征进行判断，每次选择最能减小不纯度的方案。来对切分点和切分特征进行判断，每次选择最能减小不纯度的方案。个离散值下的样本数量占总体样本的比值，该特征离散值越多，生长的过程是每次都对最能够下降不纯度的特征进行切分。来计算不纯度的计算。

2022-12-23 17:02:05 611

原创机器学习随笔——Entropy Loss的本质

今天突然想到了logloss，也就是 cross-entropyloss。

2022-11-22 23:36:43 1692

原创中餐厅过程Chinese restaurant process

中餐厅过程是狄利克雷过程的后验分布。第n个客人坐新桌的概率：第n个客人坐之前的k号桌的概率：可以通过不断更新客人坐在第几桌的离散概率，得到一个个簇。簇的数量是由alpha的大小决定，alpha越大，客人越趋向于坐新桌子；反之，客人越趋向于坐有人的桌子。可以通过代码与图像进一步理解这个过程。代码：https://github.com/SaberCali/Chinese-Restaurant-Progress-CRP-

2022-10-27 02:03:52 453

转载 SVM支持向量机详解（三）

先复习一下，上一章我们讲到了（1）最优解与凸函数，我们通过这一小节知道了我们的目标函数和限制条件下，整个问题是可以求解的，且一定存在最优解。（2）线性优化器的求解方法，我们通过这一个小结，知道了能将我们的问题g（x）= wx+b 进行n维向量的变化，首先，我们知道w会被xi的坐标影响，因此w=α1x1+α2x2+…+αnxn（xi是样本点，αi是拉普拉斯算子（求最优解会有的一些参数），后来，我们想到w也受到y（样本的标签）的影响，因此w=w=α1y1x1+α2y2x2+…+αnynxn。yi不是向量，所以

2022-06-22 16:59:06 636

转载 SVM支持向量机详解（二）

目标函数和约束条件，可以用下面的式子表示：公式中一共有p+q个约束条件，其中p个是不等式约束，q个等式约束。关于这个式子可以这样来理解：式中的x是自变量，但不限定它的维数必须为1（视乎你解决的问题空间维数，对我们的文本分类来说，那可是成千上万啊）。要求f(x)在哪一点上取得最小值（反倒不太关心这个最小值到底是多少，关键是哪一点），但不是在整个空间里找，而是在约束条件所划定的一个有限的空间里找，这个有限的空间就是优化理论里所说的可行域。注意可行域中的每一个点都要求满足所有p+q个条件，而不是满足其中一条或几条

2022-06-21 17:38:33 429

原创 SVM支持向量机详解（一）

本文借鉴大神的博客，讲的非常好~SVM入门（一）至（三）Refresh - Jasper's Java Jacal - BlogJava要是我的文章讲的不够清晰，欢迎大家也去看看大神的文章。已经看过一些SVM的帖子或者资料的同学应该看到过这张图，这是一个二维的图像：正方形和圆形是不同的样本，中间的直线就是将这两个样本分割的函数。为什么叫他线性的，因为他是一个直线。那么在三维中，线性的分类函数就是一个平面。我们设这条线的方程为我们可以取阈值为0，这样当有一个样本xi需要判别的时候，我们就看g(xi)的值。若g

2022-06-20 22:54:52 1047

原创机器学习之Stacking——模型融合

“特征提取决定模型上限，模型的选择就是不断接近这个上限。”在特征已经提取好的情况下，也选择好了机器学习模型算法，如何进一步提高模型的表现呢？Stacking方法就是一个可以帮助模型进一步提高的算法。类似于深度学习NNs，Stacking一般有两层机器学习模型，第一层机器学习模型群可以被看成NNs中的神经元，对原始的（处理好的）数据集进行训练，输出新的特征，给下一层的机器学习模型使用；第二层机器学习模型的学习‘材料’就是上一层的输出，第二层的输出是最后的预测结果。多个模型的集合，相当于NNs中的深层次的特征提

2022-06-18 16:58:30 2311

转载机器学习集成学习-BOOSTING与BAGGING

集成算法（Emseble Learning）是构建多个学习器，然后通过一定策略结合把它们来完成学习任务的，常常可以获得比单一学习显著优越的学习器。用于减少方差的bagging用于减少偏差的boosting 代表：随机森林：取弱分类器的结果取平均。代表：GradientBoosting、AdaBoost、LogitBoost。思想：增加前一个基学习器在训练过程中预测错误样本的权重，使得后续基学习器更加关注这些打标错误的训练样本，尽可能纠正这些错误，一直向下串行直至产生需要的T个基学习器，Boostin

2022-06-14 22:37:35 853

原创 Titanic 泰坦尼克之灾 | Kaggle| 入门 1

写这篇博客，有两个目的：1. 我是一个kaggle新手，刚刚完成这个入门项目，想做一个总结。2. 给别的小伙伴讲讲这个项目，顺便提升自己的理解。如果文中有问题，请在评论区一起讨论，谢谢。流程总结：1. 观察数据，通常使用data.head() 和data.columns.unique()来观察数据的大概情况和特征情况。2. 数据清洗3. 特征提取4. 建立模型5. 输出结果像很多课程中的机器学习项目一样，titanic项目也是通过使用一组数据（特征）来完成对船上的人是否存活的预测。我们先来看看这个项目的数

2022-06-09 21:48:13 393

转载决策树与随机森林

决策树与随机森林应该是MLer接触到最简单，最实用，最容易理解的ML算法。那么，具体是怎么实现回归的呢？看了下面这篇博客，算是更加理解了数学原理。(16条消息) 决策树与随机森林(从入门到精通)_Cyril_KI的博客-优快云博客_关于决策树与随机森林的描述正确的是zhttps://blog.youkuaiyun.com/Cyril_KI/article/details/107162316?ops_request_misc=%257B%2522request%255Fid%2522%253A%252216539112

2022-06-06 18:41:27 481

原创刷题笔记——双指针

什么是双指针（对撞指针、快慢指针）双指针，指的是在遍历对象的过程中，不是普通的使用单个指针进行访问，而是使用两个相同方向（快慢指针）或者相反方向（对撞指针）的指针进行扫描，从而达到相应的目的。换言之，双指针法充分使用了数组有序这一特征，从而在某些情况下能够简化一些运算。双指针在排序，合并，查找等问题中非常常见，一个嵌套的循环、常规的遍历、都可以通过双指针来解决问题。有效降低时间复杂度。例子 Leetcode 88 合并有序数组class Solution: def merge(

2022-04-09 11:56:01 242

yonsan_的博客