
机器学习
文章平均质量分 91
一杯敬朝阳一杯敬月光
生命不息,代码不止
展开
-
李宏毅机器学习笔记(2016年的课程):Support Vector Machine (SVM)
李宏毅机器学习笔记(2016年的课程)Support Vector Machine (SVM)原创 2022-11-05 21:21:56 · 830 阅读 · 0 评论 -
分类:概率生成模型 - 李宏毅机器学习笔记
概率生成模型 笔记原创 2022-10-02 23:37:29 · 838 阅读 · 0 评论 -
损失函数MSE、Cross entropy、Hinge Loss-杂记
MSE、交叉熵损失、hinge loss原创 2022-06-10 21:16:04 · 1179 阅读 · 0 评论 -
激活函数 Sigmoid、tanh、*LU、softPlus、maxOut、softmax、dice- 杂记
激活函数原创 2022-06-07 00:28:18 · 1357 阅读 · 0 评论 -
XGBoost
BDT(集成决策树):在决策树的基础上用boosting方法集成GBDT(梯度提升决策树):在BDT的基础上使用一阶梯度进行残差拟合XGB:GBDT做一系列优化改进1. XGBoost原理1.1 提升方法(Boosting)提升方法使用加法模型和前向分步算法加法模型 其中,为基函数,为...原创 2021-01-24 01:53:39 · 261 阅读 · 0 评论 -
day1 - 推荐系统碎碎念
三要素 item: 要推荐的货 user context 算法 机器学习 做推荐,一个基本点,货找人 label = model(item, user, context) -- 3个input label是指什么? --业务上的指标:可以是点击、收藏、加购、评分等 例如:对于点击指标-- label 是预估出当前item被user点击的概率 针对user我们可以设计哪些特征 兴趣,历史点击浏览行为,用户的标签,用户自身的属性 针对item我们可以设计哪些特...原创 2021-01-21 04:01:39 · 167 阅读 · 0 评论 -
机器学习汇总
传统机器学习-线性回归(吴恩达机器学习笔记)https://blog.youkuaiyun.com/qq_xuanshuang/article/details/104309226传统机器学习-Logistic回归(吴恩达机器学习笔记) https://blog.youkuaiyun.com/qq_xuanshuang/article/details/104432710传统机器学习-正则化(吴恩达机器学习笔记)https://blog.youkuaiyun.com/qq_xuanshuang/article/details/104...原创 2020-06-19 13:08:24 · 186 阅读 · 0 评论 -
聚类-附kmeans代码
1、聚类任务目标:通过对无标记训练样本的学习来揭示数据的内在性质和规律,为进一步数据分析提供基础。聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“蔟”,每个簇可能对应于一些潜在的概念(类别),这些概念对聚类算法而言事先是未知的。形式化来说,设样本集包含m个无标记样本,每个样本是一个n维特征向量,则聚类算法将样本集D划分为k个不相交的蔟,其中且。相应的,用表示样...原创 2020-05-05 16:31:09 · 459 阅读 · 0 评论 -
前深度学习时代-推荐系统的进化之路附部分代码(深度学习推荐系统学习笔记)
传统模型的演化关系图原创 2020-04-21 22:43:45 · 1452 阅读 · 0 评论 -
传统机器学习-提升方法
在分类问题中,通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,以提高分类器的性能。原创 2020-04-18 20:55:25 · 540 阅读 · 0 评论 -
传统机器学习-SVM(吴恩达机器学习笔记)补充
此篇是中间产品,最终会整合上一篇SVM。优化目标从logistic回归引发SVMlogistic回归: 模型: 若y=1,我们希望,即 若y=0,我们希望,即 单个样本对损失函数的贡献: 当y=1时(我们希望),下图黑色的曲线。现在对logis...原创 2020-04-07 13:41:22 · 260 阅读 · 0 评论 -
传统机器学习-SVM
1-什么是SVMHard Margin SVM:前提,样本是线性可分的2-SVM背后的最优化问题SVM:最大化margin,其中margin=2d,即SVM要最大化d。3-Soft Margin SVM 和SVM的正则化下面两幅图,均是Hard Margin SVM,第一个可能泛化不好,第二个线性不可分,Hard Margin SVM无法得到结果,无法应...原创 2020-04-02 01:26:17 · 804 阅读 · 0 评论 -
传统机器学习-集成学习和随机森林
1-什么是集成学习2- Soft Voting Classifersoft voting classifer:要求每个模型都能估计概率。3-Bagging和Pasting集成学习虽然有很多机器学习方法,但是从投票的角度看,仍然不够多。那么需要创建更多的字模型,集成更多的字模型,子模型之间不能一致,子模型之间要有差异性。如何创建差异性?1)每个子模型只看样本数据的一...原创 2020-04-02 00:44:04 · 736 阅读 · 0 评论 -
传统机器学习-决策树
1-什么是决策树决策树是非参数学习算法,可以解决分类问题,天然可解决多分类问题,也可解决回归问题,具有非常好的可解释性。如何构建决策树:每个节点在哪个维度做划分,某个维度在哪个值上做划分。2-信息熵熵在信息论中代表随机变量不确定度的度量。熵越大,数据的不确定性越高;熵越小,数据的不确定性越低。其中,log是e为底的自然对数。如何构建决策树:每个节点在哪个维度...原创 2020-04-01 13:31:15 · 713 阅读 · 0 评论 -
传统机器学习-PCA VS LDA(线性判别分析)
1-什么是PCAPCA是一个非监督的机器学习算法,主要用于数据将为,也可用于可视化和去噪。我们想要在降维后样本保持一个比较好的区分。例如降到一维,如何找到让样本间间距最大的轴?我们可以使用方差来代表样本间的间距(因为方差可以描述样本的疏密程度)。则问题变为找到一个轴,使得样本间的所有点映射到这个轴后,方差最大。去完均值后,每一维的均值均为0,则方差由(图一),其中均值为0,则(...原创 2020-03-31 15:27:40 · 556 阅读 · 0 评论 -
传统机器学习-梯度下降
1-什么是梯度下降一种基于搜索的最优化算法,作用:最小化一个损失函数梯度上升:最大化一个效用函数:在曲线方程中,导数代表切线斜率;导数代表单位变化时,J相应的变化梯度下降法的超参:学习率;起始点(并不是所有函数都有唯一极值点)线性回归法的损失函数具有唯一最优解...原创 2020-03-30 22:35:31 · 245 阅读 · 0 评论 -
tf
维度相关定义a = tf.Variable([[1,-1,3]], shape=(1,3))<tf.Variable 'Variable:0' shape=(1, 3) dtype=int32, numpy=array([[ 1, -1, 3]], dtype=int32)>a只能是一维矩阵(即向量),shape是(3,)而不是(3,1)也不能是(1,3)...原创 2020-03-14 19:12:35 · 191 阅读 · 0 评论 -
个性化推荐算法
浅层排序模型逻辑回归1 - 样本选择与特征选择相关样本选择规则1、采样比例正负样本需要维持一个正常的比例(符合产品的实际形势,例如某商品用户每3次到来就会产生一次购买,正负样本就是1:2的比例);某些特殊场景可能需要userid下的样本达到平均水平,例如最少20个,对于那些样本少的,我们需要做样本增长,例如给他赋一个特定的权重,使得其即使样本少,也能达到要求。2、采样率例如...原创 2020-06-09 09:59:17 · 1326 阅读 · 0 评论 -
传统机器学习-应用机器学习的建议(吴恩达机器学习笔记)
模型选择和训练、验证、测试集训练集用最优化算法来得到最有的参数,验证集用来挑选超参数,测试集用来预估出泛化误差。诊断偏差与方差高偏差(欠拟合):训练集误差大,测试集误差大高方差(过拟合):训练集误差小,测试集误差大学习曲线横轴:样本个数,纵轴:误差接下来决定做什么对待高偏差增加特征 增加多项式特征 减小正则化参数对待高方差增大训练集 减少特征数...原创 2020-03-04 14:41:56 · 224 阅读 · 0 评论 -
传统机器学习-神经网络学习(吴恩达机器学习笔记)
非线性假设为什么要引入神经网络算法? 因为若在逻辑回归模型的基础上仅仅通过增加特征(比如增加高阶多项式项数)来建立复杂的非线性分类器,可能会造成过拟合,而且在原有特征个数n很大的时候,即是只包含平方项或立方项,最终特征数也会很大该做法会使特征空间急剧膨胀,计算复杂度和耗时显著增大,并不是一种好方法。模型展示此处解释一下,-表示经过激活函数之后第j层的第i个单元的输...原创 2020-02-26 11:03:07 · 420 阅读 · 0 评论 -
传统机器学习-正则化(吴恩达机器学习笔记)
解决过拟合的方法1、减少特征数 人工挑选留下的特征 模型选择算法2、正则化 会保留所有的特征,但是会控制每一个参数的幅度(参数值较小意味着一个更简单的假设模型。参数值越小,曲线越平滑)。该方法在面对特征很多,且每个特征对预测都会有些影响的时候效果不错。线性回归的正则化模型定义不变: 损失函数...原创 2020-02-23 10:44:41 · 259 阅读 · 0 评论 -
传统机器学习-Logistic回归(吴恩达机器学习笔记)
逻辑回归:我们期望得到值域在[0,1]之间的预测值。逻辑回归天然的是用来处理二分类的情况的,至于多分类的情况会要稍微处理一下。在逻辑回归中,我们通常将正例的标签标为1,负例的标签标为0。逻辑回归的输出值(即预测值),表示的是预测为正例(即标签为1)的概率。模型定义,其中g(z)又被称为sigmoid函数。,对该模型的解释,预测的是对每一个样本得到标签是1(即正例)的概率。...原创 2020-02-22 10:45:49 · 868 阅读 · 0 评论 -
传统机器学习-线性回归(吴恩达机器学习笔记)
目录模型的定义损失函数梯度法正规方程解模型的定义将m个样本,n个特征的训练集表示为:对于线性回归,我们假设(为了方便起见,我们令)其中是待学习的参数,即是我们取的n个特征,其中第一项,即是表示截距。损失函数其中,,梯度法, 用矩阵形式表示为其中,括号中的三项均为标量,求的导数,按的形状来求解比较容易。梯度...原创 2020-02-14 13:48:38 · 421 阅读 · 0 评论