u013250861
这个作者很懒,什么都没留下…
展开
-
LLMs:Chinese-LLaMA-Alpaca-2(基于deepspeed框架)的简介、安装、案例实战应用之详细攻略
LLMs之LLaMA2:LLaMA2的简介(技术细节)、安装、使用方法(开源-免费用于研究和商业用途)之详细攻略_一个处女座的程序猿的博客-优快云博客实战应用相关LLMs:Chinese-LLaMA-Alpaca的简介(扩充中文词表+增量预训练+指令精调)、安装、案例实战应用之详细攻略_一个处女座的程序猿的博客-优快云博客。原创 2023-11-10 01:01:00 · 461 阅读 · 0 评论 -
贝叶斯线性回归(Bayesian Linear Regression)
基于上面的讨论,这里就可以引出本文的核心内容:贝叶斯线性回归。贝叶斯线性回归不仅可以解决极大似然估计中存在的过拟合的问题。它对数据样本的利用率是100%,仅仅使用训练样本就可以有效而准确的确定模型的复杂度。在极大似然估计线性回归中我们把参数看成是一个未知的固定值,而贝叶斯学派则把看成是一个随机变量。inference(求后验)和prediction下面结合图来说明贝叶斯线性回归的过程.原创 2023-08-30 21:02:05 · 902 阅读 · 0 评论 -
高斯过程回归(GPR/Gaussian Process):性质完美,计算简单,形式漂亮(非参数贝叶斯方法)【对无穷维的函数进行建模,而不是仅仅对参数进行建模。】
因为高斯分布在自然界无比常见,所以把原来的n个y看成服从高斯分布,来了一个新的Xn+1,这n+1个y还是服从一个联合正态分布的。简单的说,由于它性质完美,计算简单,形式漂亮,所以可以被广泛应用在各种统计建模中,包括一些非线性的预测推断问题。已知n个点的(xa,ya),想知道在任意一个新的点xb,对应的yb是怎么样的。可以用来进行贝叶斯优化。1.简单来说,高斯过程可以看成是一个函数,函数的输入是x,函数的输出是高斯分布的均值和方差。对于上面的协方差矩阵K,其中k(x,y)表示核函数,那么这个核函数如选取?原创 2023-08-30 20:57:55 · 581 阅读 · 0 评论 -
高斯过程GP(Gaussian Process):定义在连续域上的无限多个高维随机变量所组成的随机过程(无限维高斯分布)
机器学习-白板推导系列(二十)-高斯过程GP(Gaussian Process)_哔哩哔哩_bilibili原创 2023-08-30 20:49:28 · 431 阅读 · 0 评论 -
ML-经典模型-2017:LightGBM【较其他GBDT衍生方法(如XGBoost),优势是训练速度快,这也是叫 “light“ 的原因。在保持训练精度的前提下,将传统GBDT的训练速度提高20倍】
GBDT (Gradient Boosting Decision Tree) 是机器学习中一个长盛不衰的模型,其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型,该模型具有训练效果好、不易过拟合等优点。GBDT不仅在工业界应用广泛,通常被用于多分类、点击率预测、搜索排序等任务;在各种数据挖掘竞赛中也是致命武器,据统计Kaggle上的比赛有一半以上的冠军方案都是基于GBDT。原创 2023-02-11 17:07:10 · 237 阅读 · 0 评论 -
机器学习-有监督学习-分类算法:k-近邻(KNN)算法【多分类】【使用场景: 小数据场景/小样本学习,几千~几万样本】【使用faiss库实现快速计算KNN】
K-近邻算法(KNN)概念>**k-近邻算法**:如果一个样本在特征空间中的**k个最相似(即特征空间中最邻近)的样本中的大多数**属于某一个类别,则该样本也属于这个类别。>相似的样本,同一特征的值应该是相近的。>k的取值会影响结果。>就是通过你的"邻居"来判断你属于哪个类别。>如何计算你到你的"邻居"的距离:一般时候,都是使用欧氏距离计算k-近邻距离公式:两个样本的距离可以通过如下公式计算,又叫**欧式距离**。需要事先对数据进行标准化处理。原创 2020-11-17 21:51:49 · 2449 阅读 · 1 评论 -
机器学习-有监督学习-分类算法:朴素贝叶斯算法(用于文本分类)
一、贝叶斯公式1、贝叶斯公式P(Ax∣B)=P(AxB)P(B)=P(B∣Ax)∗P(Ax)P(B)=P(B∣Ax)∗P(Ax)∑i=0nP(B∣Ai)∗P(Ai)=Ax条件下B的似然概率∗Ax的先验概率事件B的先验概率=Ax条件下B的似然概率∗Ax的先验概率∑i=0nAi条件下B的似然概率∗Ai的先验概率=似然概率∗先验概率标准化常量P(A_x|B)\\=\frac{P(A_xB)}{P(B)}=\frac{P(B|A_x)*P(A_x)}{P(B)}=\frac{P(B|A_x)*P(A_x)}{原创 2020-11-19 01:51:53 · 767 阅读 · 0 评论 -
机器学习-有监督学习-回归算法:线性回归【值域符合正态分布律 ==似然函数最大化 ==> 平方损失函数】【LASSO回归(L1)、Ridge岭回归(L2)、ElasticNet回归(L1&L2)】
人工智能-机器学习-算法-回归算法:线性回归原创 2020-11-20 23:16:21 · 597 阅读 · 0 评论 -
机器学习-有监督学习-分类算法:逻辑回归/Logistic回归(二分类模型)【值域符合二项分布律 ==似然函数最大化==> 交叉熵/对数损失函数】、Softmax回归(多分类模型)【交叉熵损失函数】
逻辑回归:分类问题的首选算法,主要用于解决二分类问题## 1、什么是逻辑回归>**逻辑回归**(Logistic Regression):是一种**对数几率模型**,虽然被称为回归,但其实际上是**分类算法模型**。从大的类别上来说,逻辑回归是一种有监督的统计学习方法,主要用于对样本进行分类。>线性回归模型中:**输出一般是连续的**,例如 $y=\textbf{X}\textbf{Θ}=θ_1x_1+θ_2x_2+θ_3x_3+...+θ_nx...原创 2020-11-23 00:05:36 · 2051 阅读 · 0 评论 -
机器学习-有监督学习-分类算法:SVM/支持向量机【SVM:高维空间里用于二分类的超平面;支持向量:超平面附近隔离带边界上的样本】【求参数(ω,b)使超平面y(x)=Φ(x)·ω+b能最优分隔两集合】
支持向量机(support vector machine):简称 SVM。机,即机器,指的是这个模型是一个机器,它的作用是分类,所以可以理解为一个分类用的机器。通俗来讲,它是一种二类分类模型。其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。一、SVM算法导引在很久以前的情人节,大侠要去救他的爱人,但魔鬼和他玩了一个游戏。魔鬼在桌子上似乎有规律放了两种颜色的球,说:“你用一根棍分开它们?要求:尽量在放更多球之后,仍然适用。”于是.原创 2020-11-24 23:56:36 · 1498 阅读 · 1 评论 -
机器学习-有监督学习-分类算法:最大熵模型【迭代过程计算量巨大,实际应用比较难;scikit-learn甚至都没有最大熵模型对应的类库】
最大熵模型(maximum entropy model, MaxEnt)也是很典型的分类算法了。它和逻辑回归类似,都是属于对数线性分类模型。在损失函数优化的过程中,使用了和支持向量机类似的凸优化技术。而对熵的使用,让我们想起了决策树算法中的ID3和C4.5算法。理解了最大熵模型,对逻辑回归,支持向量机以及决策树算法都会加深理解。本文就对最大熵模型的原理做一个小结。一、熵和条件熵熵度量了事物的不确定性,越不确定的事物,它的熵就越大。具体的,随机变量X的熵的表达式如下:H(X)=−∑i=1np原创 2021-06-28 22:12:34 · 507 阅读 · 1 评论 -
机器学习-有监督学习-分类算法:决策树算法【CART树:分类树(基于信息熵;分类依据:信息增益、信息增益率、基尼系数)、回归树(基于均方误差)】【损失函数:叶节点信息熵和】【对特征具有很好的分析能力】
决策树算法采用的是自顶向下递归方法,其基本思想是以信息熵为度量构造一棵值下降最快的树,到叶子节点处熵值为零,此时每个叶节点中的实例都属于同一类。决策树是一种自上而下,对样本数据进行树形分类的过程,由结点和有向边组成。结点分为内部结点和叶结点,其中每个内部结点表示一个特征或属性,叶结点表示类别。从顶部根结点开始,所有样本聚在一起。经过根结点的划分,样本被分到不同的子结点中。再根据子结点的特征进一步划分,直至所有样本都被归到某一个类别(即叶结点)中。决策树:自顶向下,做一个信息熵下降最快的树,使得事件越来越原创 2020-11-19 22:18:59 · 1564 阅读 · 0 评论 -
机器学习-有监督学习-集成学习方法(一):集成(Ensemble)学习方法综述【Bootstrap(Bagging装袋、Boosting提升)、Stacking堆叠、Blending融合】
集成学习方法(Ensemble Learning)>**集成学习方法**:通过建立几个分类(学习)器/模型组合的来解决单一预测问题。它的工作原理是生成多个分类(学习)器/模型,各自独立地学习和作出预测。这些预测最后结合成单预测,因此优于任何一个单分类的做出预测。>**集成学习方法**:都建立在一个这样的假设上:将多个模型组合在一起通常可以产生更强大的模型。>**集成学习方法**:是通过训练弱干个弱学习器,并通过一定的结合策略,从而形成一个强学习器。有时也被称为多分类器系统(multi-classifi原创 2020-12-01 21:31:24 · 1787 阅读 · 0 评论 -
机器学习-有监督学习-集成学习方法(二):Bootstrap->Bagging->Random Forest(随机森林)【每颗树建造:从N个样本有放回抽样N次作为训练集;随机选m个特征用于该树的训练】
随机森林是在Bagging的基础上做了修改:每个基分类器从所有属性中随机选择 $m$ 个特征属性,而不是像Bagging那样选择所有特征属性。- Random Forest(随机森林)是一类专门用决策树分类器设计的组合方法。也就是说,<font color='violet'>随机森林这种组合方法中,基分类器选定了就是决策树</font>。- 每一棵树建立的过程中所选用的属性都是原始样本所有属性的随机子集。 - **决策树**以 ID3 为例的话,结点的分裂是要选择信息增益最大的那个属性进行分裂的,而计原创 2020-12-04 23:33:21 · 1014 阅读 · 0 评论 -
机器学习-有监督学习-集成学习方法(三):Bootstrap->Boosting(提升)方法-->前向分步算法-->Adaboost算法--+决策树-->Adaboost提升树
Adaboost算法:是提升算法中最具代表性的算法之一,当前向分布算法的损失函数 $L(\textbf{y}, f(\textbf{x}))$取“指数函数” $L(\textbf{y},f(\textbf{x}))=e^{-\textbf{y}f(\textbf{x})}$ 时,该前向分布算法等价于Adaboost算法。- Adaboost每个基学习器的学习算法为“前向分步算法”;- Adaboost算法的训练误差是以指数速率下降的;- Adaboost算法不需要事先知道下界 $γ$,具有自适应性(A原创 2020-12-04 23:40:12 · 376 阅读 · 0 评论 -
机器学习-有监督学习-集成学习方法(四):Bootstrap->Boosting(提升)方法-->Gradient Boosting(梯度提升)算法--+决策树-->GBDT梯度提升树
GBDT主要由三个概念组成:Regression Decistion Tree(DT,回归树),Gradient Boosting(GB,梯度提升),Shrinkage (算法的一个重要演进分枝,目前大部分源码都按该版本实现)。搞定这三个概念后就能明白GBDT是如何工作的。- GBDT有很多简称,有GBT(Gradient Boosting Tree), GTB(Gradient Tree Boosting ), GBRT(Gradient Boosting Regression Tree), MART原创 2020-12-04 23:44:08 · 518 阅读 · 0 评论 -
机器学习-有监督学习-集成学习方法(五):Bootstrap->Boosting(提升)方法->eXtremeGradientBoosting算法--+决策树-->XGBoost提升树
XGBoost,在计算速度和准确率上,较GBDT有明显的提升。xgboost 的全称是eXtreme Gradient Boosting,它是Gradient Boosting Machine的一个c++实现,作者为正在华盛顿大学研究机器学习的大牛陈天奇 。- XGBoost最大的特点在于,它能够自动利用CPU的多线程进行并行,同时在算法上加以改进提高了精度。它的处女秀是Kaggle的 希格斯子信号识别竞赛,因为出众的效率与较高的预测准确度在比赛论坛中引起了参赛选手的广泛关注。- 一般地说, XGBoo原创 2020-12-04 23:51:34 · 659 阅读 · 0 评论 -
机器学习-有监督学习-集成学习方法(六):Bootstrap->Boosting(提升)方法->LightGBM(Light Gradient Boosting Machine)
机器学习-有监督学习-集成学习方法(六):Bootstrap->Boosting(提升)方法->LightGBM(Light Gradient Boosting Machine)原创 2022-02-21 23:26:02 · 513 阅读 · 0 评论 -
机器学习:维特比算法(Viterbi Algorithm)【场景:HMM模型中的解码问题(求给定观测序列的条件概率P(I|O,λ)最大时的隐藏状态序列)、“篱笆网络”最短/最大路径、分词】【动态规划】
一、维特比算法(Viterbi Algorithm)讲解方式01:篱笆网络(Lattice)的最短路径问题已知下图的篱笆网络,每个节点之间的数字表示相邻节点之间的距离,举个例子来说,如果我走,这个距离是。那么如果让你从A走到E,最短路径是哪一条呢?显然大家都知道,通过穷举的方法是很容易得到最短路径,可是问题就在于如果穷举的话,需要的加法次数不用算你也知道实在是太多啦(每条路径需要计算次加法,一共条路径共次计算)!像这种没几层的篱笆网络也就罢了,如果每层13个节点,一共12层(然而这个规模对于标注问题来原创 2022-01-03 23:45:00 · 517 阅读 · 0 评论 -
机器学习-算法-有监督学习:EM(最大期望值算法)<=> MLE(最大似然估计法)【关系类似“梯度下降法”<=>“直接求导法”】【EM&“梯度下降”:先初始化一个随机值,然后通过迭代不断靠近真实值】
最大期望算法(Expectation-maximization algorithm,又译为期望最大化算法),是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐性变量。它是一个基础算法,是很多机器学习领域算法的基础,比如隐式马尔科夫算法(HMM)等等。最大期望算法经过两个步骤交替进行计算:第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M),最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一.原创 2020-11-26 20:57:40 · 927 阅读 · 0 评论 -
机器学习-概率图模型:隐马尔可夫模型(HMM)【解决序列问题】【前提假设:隐层状态序列符合马尔可夫性、观测序列的各观测值相互独立】【被RNN等神经网络模型取代】【生成模型:对联合概率建模】
一、马尔科夫链1、 马尔可夫性马尔可夫性:当一个随机过程在给定当前状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态;换句话说,在给定现在状态时,它与过去状态(即该过程的历史路径)是条件独立的,那么此随机过程即具有马尔可夫性质。具有马尔可夫性质的随机过程通常称之为马尔可夫过程。2、 马尔科夫链马尔科夫链:即为状态空间中从一个状态到另一个状态转换的随机过程。该过程要求具备“无记忆”的性质:下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。这种特定类型原创 2020-11-26 21:00:13 · 1391 阅读 · 0 评论 -
机器学习-概率图模型:最大熵马尔可夫模型(MEMM)【解决序列问题】【前提假设:隐层状态序列符合马尔可夫性】【HMM--去除“观测状态相互独立”假设-->MEMM】【判别式模型】
机器学习-自然语言处理(NLP):最大熵马尔可夫模型(MEMM)【解决序列问题】【前提假设:隐层状态序列符合马尔可夫性】【判别式模型】原创 2022-01-04 22:48:32 · 638 阅读 · 1 评论 -
机器学习-概率图模型:条件随机场(CRF)【前提假设:隐层状态序列符合马尔可夫性、枚举整个隐状态序列全部可能】【MEMM--枚举整个隐状态序列全部可能-->CRF】【判别模型:条件概率】
CRF(全称Conditional Random Fields), 条件随机场. 是给定输入序列的条件下, 求解输出序列的条件概率分布模型.下面举两个应用场景的例子:* 场景一: 假设有一堆日常生活的给小朋友排拍的视频片段, 可能的状态有睡觉、吃饭、喝水、洗澡、刷牙、玩耍等, 大部分情况, 我们是能够识别出视频片段的状态. 但如果你只是看到一小段拿杯子的视频, 在没有前后相连的视频作为前后文参照的情况下, 我们很难知道拿杯子是要刷牙还是喝水. 这时, 可以用到CRF模型.* 场景二: 假设有分好原创 2021-04-02 21:27:05 · 692 阅读 · 0 评论 -
机器学习-降维方法:PCA、KPCA、LDA、LLE、LE、t-SNE、AutoEncoder、MDS、ISOMAP、FastICA、SVD、LPP、ICA
机器学习-降维方法:PCA、KPCA、LDA、LLE、LE、t-SNE、AutoEncoder、MDS、ISOMAP、FastICA、SVD、LPP、ICA原创 2020-12-24 23:44:35 · 2095 阅读 · 0 评论 -
机器学习-降维方法-无监督:PCA算法(主成分/主元分析)【计算协方差矩阵X^TX的特征值与特征向量W(特征向量W控制旋转、特征值控制尺度)->特征向量W作为投影矩阵->将样本X通过W投影进行降维】
机器学习-无监督学习-降维:PCA算法(Principal Component Analysis, 主成分分析)【最大方差理论:求协方差矩阵的特征值与特征向量】原创 2021-01-14 00:16:39 · 594 阅读 · 0 评论 -
机器学习-降维方法-有监督学习:LDA算法(线性判别分析)【流程:①类内散度矩阵Sw->②类间散度矩阵Sb->计算Sw^-1Sb的特征值、特征向量W->得到投影矩阵W->将样本X通过W投影进行降维】
LDA 是一种有监督学习算法,同时经常被用来对数据进行降维。相比于PCA,LDA可以作为一种有监督的降维算法。在PCA中,算法没有考虑数据的标签(类别),只是把原数据映射到一些方差比较大的方向上而已。LDA的中心思想:投影后类内方差最小,类间方差最大。要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。现在我们首先从比较简单的二类LDA入手,严谨的分析LDA的原理:假设我们的数据集D={(x1,y1),(x2,y2),...,原创 2021-10-29 20:40:29 · 3840 阅读 · 1 评论