u013250861
这个作者很懒,什么都没留下…
展开
-
《Approaching (Almost) Any Machine Learning Problem/解决几乎任何机器学习问题》
在贪心特征选择中,我们选择一个特征,训练一个模型,并在固定的评估指标上评估模型的性能。对于任何类型的机器学习问题,我们必须知道我们将如何评估我们的结果,或评估指标或目标是什么。必须指出的是,这里的讨论非常普遍,但非常有用,也可能存在非常复杂的方法,由专业人士练习。在Searchmetrics,Abhishek致力于一些最有趣的数据驱动研究,应用机器学习算法,并从海量数据中获取需要大量数据的整理,清理,特征工程以及机器学习模型的构建和优化。幸运的是,我也有相当多的经验,我愿意放弃一些东西。原创 2023-09-13 12:40:26 · 1379 阅读 · 0 评论 -
鲁棒性、泛化 的解释和区别【鲁棒性:一些异常的数据对整体的性能影响不大】【泛化能力:对具有同一规律的学习集以外的数据经过训练的网络也能给出合适的输出】
在深度学习中常用于形容算法模型,当说算法模型具有鲁棒性时,表明对这个算法模型而言,一些异常的数据对整体的性能影响不大或者基本没有影响。学习的目的是学到隐含在数据背后的规律,对具有同一规律的学习集以外的数据经过训练的网络也能给出合适的输出,该能力称为泛化能力。原创 2023-08-09 23:33:15 · 1984 阅读 · 0 评论 -
【机器学习】浅谈 归纳偏置 (Inductive Bias)
是自然科学中常用的两大方法之一 (归纳与演绎,Induction & Deduction),指从一些例子中寻找共性、泛化,形成一个较通用的规则的过程。显然,加了一定正则的偏置的实线 A 比虚线 B 更为简单而通用 (模型复杂度受到惩罚而更低,恰当拟合数据点,泛化性能更好)。对于上图中的 6 个离散实心点,可由很多不同的曲线拟合之。在机器学习中,很多学习算法经常会对学习的问题做一些关于目标函数的必要假设,称为。归纳偏置的意义或作用是使得学习器具有了泛化的能力。则是指对模型的偏好,以下展示了。原创 2023-08-09 17:28:20 · 417 阅读 · 0 评论 -
机器学习:贝叶斯网络
贝叶斯网络是一种用于进行概率推理的模型。(比如说下面这个图,箭头表示因果关系,也就是强盗抢劫和地震都会引起房子铃响,如果房子铃响,那么这个人的两个邻居John和mary会打电话给他)。这里通过因果关系建立起来的网络称之为贝叶斯网络,那么它支持哪些推理呢?......原创 2022-08-05 09:49:22 · 339 阅读 · 0 评论 -
机器学习:贝叶斯网络
贝叶斯网络是一种用于进行概率推理的模型。(比如说下面这个图,箭头表示因果关系,也就是强盗抢劫和地震都会引起房子铃响,如果房子铃响,那么这个人的两个邻居John和mary会打电话给他)。这里通过因果关系建立起来的网络称之为贝叶斯网络,那么它支持哪些推理呢?如果我们根据先验知识构建了这个贝叶斯网络,那么我们是可以对这样一个查询进行概率推理的——如果John打电话给我,发生抢劫的概率是多少呢?这个概率推理的过程运用到了贝叶斯公式,所以我们称之为贝叶斯网络。...原创 2022-07-25 23:15:00 · 815 阅读 · 0 评论 -
模型过拟合-解决方案(二):Dropout
Dropout在训练时和使用(测试)时的策略不同,训练时随机删除一些神经元,在使用模型时将所有的神经元加入。Dropout可以被认为是集成大量深层神经网络的实用的Bagging方法。Dropout与Bagging不同点在于:打印结果:......原创 2022-06-12 15:36:08 · 397 阅读 · 0 评论 -
机器学习项目的完整流程:①数学建模、②获取数据、③数据预处理、④特征工程、⑤模型的选择、⑥模型训练、⑦模型调优、⑧模型评价、⑨模型融合、⑩上线
1 抽象成数学问题明确问题是进行机器学习的第一步。机器学习的训练过程通常都是一件非常耗时的事情,胡乱尝试时间成本是非常高的。这里的抽象成数学问题,指的我们明确我们可以获得什么样的数据,目标是一个分类还是回归或者是聚类的问题,如果都不是的话,如果划归为其中的某类问题。2 获取数据数据决定了机器学习结果的上限,而算法只是尽可能逼近这个上限。数据要有代表性,否则必然会过拟合。而且对于分类问题,数据偏斜不能过于严重,不同类别的数据数量不要有数个数量级的差距。而且还要对数据的量级有一个评估,多少个样本,原创 2021-12-27 22:15:00 · 1477 阅读 · 0 评论 -
机器学习-第三方库(工具包):scikit-learn【用于特征工程(主要分为三部分:数据预处理、特征选择、降维)】【Sklearn模块中包含常用的算法】
Python语言的机器学习工具Scikit-learn包括许多知名的机器学习算法的实现(算法原理一定要懂)Scikit-learn文档完善,容易上手,丰富的API,使其在学术界颇受欢迎。一、特征抽取 (使用scikit-learn进行数据的特征抽取)1、字典类型数据----特征抽取使用类:sklearn.feature_extraction.DictVectorizersklearn.feature_extraction.DictVectorizer的作用:对字典数据进行特征值化。即:把字典里原创 2020-11-17 00:55:08 · 4054 阅读 · 0 评论 -
机器学习-第三方库(工具包):Gensim【包括多个模块:TF-IDF、词向量(Word2vec、GloVe);语料库;主题模型(LSA、LDA);】
人工智能-机器学习-第三方库(工具包):Gensim【用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。 支持包括TF-IDF、LSA、LDA等多种主题模型】原创 2021-04-11 22:00:21 · 484 阅读 · 0 评论 -
机器学习:TF-IDF算法【词频-逆文本频率=TF×IDF】【用以评估一个词对于一个文档集中的其中一份文档的重要】【词频:词或短语在一篇文章中出现的概率】【逆文本频率:总文档数量/该词出现的文档数量】
一、TF-IDFTF(term frequency):词频IDF(inverse document frequency):逆文档频率=log(总文档数量该词出现的文档数量)逆文档频率=log(\cfrac{总文档数量}{该词出现的文档数量})逆文档频率=log(该词出现的文档数量总文档数量)TF× IDF\text{TF× IDF}TF× IDF:该词在该篇文档中的重要性程度TF× IDF的主要思想是:如果某个词或短语在一篇文章中出现的概率高,并且在其他文章中很少出现,则认为原创 2021-12-30 11:08:37 · 2622 阅读 · 0 评论 -
机器学习/Machine Learning:综述
一、 Matplotlib简介学习目标目标了解什么是matplotlib为什么要学习matplotlibmatplotlib简单图形的绘制1 什么是Matplotlib是专门用于开发2D图表(包括3D图表)以渐进、交互式方式实现数据可视化2 为什么要学习Matplotlib可视化是在整个数据挖掘的关键辅助工具,可以清晰的理解数据,从而调整我们的分析方法。能将数据进行可视化,更直观的呈现使数据更加客观、更具说服力例如下面两个图为数字展示和图形展示:3原创 2020-10-25 15:12:15 · 1225 阅读 · 0 评论 -
机器学习:BM25算法【TD-IDF的优化版本】
一、BM25算法原理BM25(BM=best matching)是TDIDF的优化版本,首先我们来看看TFIDF是怎么计算的tfidfi=tf∗idf=词i的数量词语总数∗log总文档数包含词i的文档数tfidf_i = tf*idf = \cfrac{词i的数量}{词语总数}*log\cfrac{总文档数}{包含词i的文档数}tfidfi=tf∗idf=词语总数词i的数量∗log包含词i的文档数总文档数其中tf称为词频,idf为逆文档频率那么BM25是如何计算的呢?BM25(i)=词i原创 2022-01-18 23:15:00 · 1452 阅读 · 0 评论 -
人工智能-损失函数-优化算法:梯度下降【SGD-->SGDM(梯度动量)-->AdaGrad(动态学习率)-->RMSProp(动态学习率)-->Adam(动态学习率+梯度动量)】、梯度下降优化技巧
批量梯度下降法(Batch Gradient Descent,简称BGD)是梯度下降法最原始的形式,它的具体思路是在更新每一参数时都使用所有的样本来进行更新,它的目的是得到一个全局最优解,但是每迭代一步,都要用到训练集所有的数据,如果样本数目m很大,这种方法的迭代速度很慢!随机梯度下降算法算法是从样本中随机抽出一组,训练后按梯度更新一次,然后再抽取一组,再更新一次,在样本量及其大的情况下,可能不用训练完所有的样本就可以获得一个损失值在可接受范围之内的模型了。其思想是:每次迭代 使用。原创 2020-12-16 00:06:44 · 1501 阅读 · 0 评论 -
人工智能-损失函数-优化算法:导数(标)、偏导数(标;函数在某一点处沿某一坐标轴正方向的变化率)、方向导数(标;函数在某一点处某一方向的变化率)、梯度(矢;函数在某一点处变化率最大的方向)、梯度下降法
一、导数(一元函数)导数,反映的是函数 y=f(x)y=f(x)y=f(x) 在某一点处沿xxx轴正方向的变化率。公式定义如下:再强调一遍,导数f’(x)f’(x)f’(x)是函数f(x)f(x)f(x)在xxx轴上某一点处沿着xxx轴正方向的变化率。直观地看,也就是在xxx轴上某一点处,如果f’(x)>0f’(x)>0f’(x)>0,说明f(x)f(x)f(x)的函数值在xxx点沿xxx轴正方向是趋于增加的;如果f’(x)<0f’(x) < 0f’(x)<0,.原创 2021-09-27 11:17:23 · 913 阅读 · 0 评论 -
人工智能-损失函数-优化算法:普通梯度下降算法【BGD(批量梯度下降法)、SGD(随机梯度下降)、MBGD(小批量梯度下降法)】
一、损失函数假设损失函数 J(θ)J(\textbf{θ})J(θ) 使用平方损失函数J(θ)=12m∑i=1m[hθ(xi)−yi]2\begin{aligned}\color{Violet}{J(\textbf{θ})=\frac{1}{2m}\sum_{i=1}^m[h_{\textbf{θ}}(\textbf{x}_i)-y_i]^2}\end{aligned}J(θ)=2m1i=1∑m[hθ(xi)−yi]2其中:mmm 为样品数量xi\textbf{x}_ixi 为样品原创 2020-12-16 22:00:35 · 749 阅读 · 1 评论 -
人工智能-损失函数-优化算法:梯度下降法的背后原理【一阶泰勒展开】
一、梯度下降法梯度下降算法的思想,它将按如下操作达到最低点:明确自己现在所处的位置。找到相对于该位置而言下降最快的方向。沿着第二步找到的方向走一小步,到达一个新的位置,此时的位置肯定比原来低。回到第一步。终止于最低点。从数学角度来看,多元函数的梯度方向是函数增长最快的方向,那么梯度的反方向就是函数减少最快的方向。以二元函数为例:z=f(x,y)z = f(x,y)z=f(x,y)现在确定一个点 (x0,y0)(x_{0},y_{0})(x0,y0),这个点是水平面上的,即在 xo原创 2021-10-29 22:44:06 · 914 阅读 · 1 评论 -
人工智能-损失函数-优化算法:牛顿法的背后原理【二阶泰勒展开】
一、0-1损失函数(zero-one loss)二、绝对值损失函数三、log对数损失函数四、平方损失函数五、指数损失函数(exponential loss)六、Hinge 损失函数七、感知损失(perceptron loss)函数八、交叉熵损失函数 (Cross-entropy loss function)参考资料:常见的损失函数(loss function)总结...原创 2020-12-16 21:59:13 · 1040 阅读 · 0 评论 -
人工智能:损失函数(Loss Function)【平方损失(正态分布)、交叉熵损失(二项分布)、合页损失、对比损失】【衡量模型预测值和真实值的差异】【总体样本->值域分布律->似然函数->损失函数】
一、分类模型1、0-1损失函数(zero-one Loss Function):无法优化L(y,f(x))={1,y≠f(x)0,y=f(x)L(y, f(x)) = \begin{cases} 1, & {y \neq f(x) } \\ 0, & {y = f(x)} \end{cases}L(y,f(x))={1,0,y=f(x)y=f(x)当预测错误时,损失函数为1,当预测正确时,损失函数值为0。该损失函数不考虑预测值和真实值的误差程度。只要错误,就是1。该损失原创 2021-09-09 12:25:47 · 2189 阅读 · 0 评论 -
人工智能-范数 norm:L1范数和L2范数【L0范数:向量中非0的元素的个数; L1范数:向量各元素的绝对值之和(曼哈顿距离);L2范数:向量各元素的平方和的开方值(欧氏距离)】
范数是衡量某个向量空间(或矩阵)中的每个向量的长度或大小。∥x∥p:=(∑i=1n∣xi∣p)1p\left \| x\right \|_p := \left( \sum_{i=1}^{n}\left|x_i\right|^p\right)^{\frac{1}{p}}∥x∥p:=(i=1∑n∣xi∣p)p1L0范数:向量中非0的元素的个数。L0 范数是 ∣∣x∣∣0=xi(xi不等于0)代表非0数字的个数||\textbf{x}||_0 = x_i (x_i不等于0)代表非0数字的个数∣∣x∣原创 2021-10-23 22:45:00 · 876 阅读 · 0 评论 -
人工智能-距离定义:曼哈顿距离、欧氏距离、余弦距离、皮尔逊相关系数、杰卡德相似系数、KL散度
机器学习:文本相似度计算方法【欧氏距离、余弦距离、皮尔逊相关系数、杰卡德相似系数、KL散度】原创 2021-01-30 23:08:22 · 1926 阅读 · 0 评论 -
机器学习-有监督学习:判别式模型【训练阶段学习P(Y|X),预测时根据p(y|x)直接求解】、生成式模型【训练阶段对学习P(X,Y),预测时根据贝叶斯公式求解:p(y|x)=p(x,y)/p(x)】
在监督学习下,模型可以分为判别式模型与生成式模型。先问个问题,根据经验,A批模型(神经网络模型、SVM、perceptron、LR、DT……)与B批模型(NB、LDA……),有啥区别不?(这个问题需要一些模型使用经验)应该是这样的:A批模型是这么工作的,他们直接将数据的Y(或者label),根据所提供的features,学习,最后画出了一个明显或者比较明显的边界(具体怎么做到的?通过复杂的函数映射,或者决策叠加等等mechanism),这一点线性LR、线性SVM应该很明显吧。B批模型是这么工作的,他原创 2021-12-30 22:45:00 · 257 阅读 · 0 评论 -
机器学习:参数模型、非参数模型
非参数模型(non-parametric model)和参数模型(parametric model)作为数理统计学中的概念,现在也常用于机器学习领域中。在统计学中,参数模型通常假设总体服从某个分布,这个分布可以由一些参数确定,如正态分布由均值和标准差确定,在此基础上构建的模型称为参数模型;非参数模型对于总体的分布不做任何假设或者说是数据分布假设自由,只知道其分布是存在的,所以就无法得到其分布的相关参数,只能通过非参数统计的方法进行推断。所以说,参数模型和非参数模型中的“参数”并不是模型中的参数,而是数据原创 2021-12-27 23:30:00 · 1959 阅读 · 0 评论 -
机器学习-算法-半监督学习:半监督学习(Semi-supervised Learning)算法
一、半监督学习算法提出的背景1、监督学习监督学习:训练样本集不仅包含样本,还包含这些样本对应的标签,即样本和样本标签成对出现。监督学习的目标是从训练样本中学习一个从样本到标签的有效映射,使其能够预测未知样本的标签。监督学习是机器学习中最成熟的学习方法,代表性的算法包括神经网络、支持向量机(SVM)等。2、无监督学习无监督学习:只能利用训练样本的数据分布或样本间的关系将样本划分到不同的聚类簇或给出样本对应的低维结构。- 因此,无监督学习常被用于对样本进行聚类或降维,典型的算法包括尺均值聚类和主成原创 2020-12-23 22:35:52 · 20798 阅读 · 2 评论 -
人工智能-机器学习:对抗攻击与防御(Adversarial Attack and Defense)
什么是对抗攻击与防御(Adversarial Attack and Defense)- 在实际的机器学期分类器中,更多的情况是用在实际生活中,很多时候实际系统会遇到很多的干扰、甚至是人为的蓄意攻击。如垃圾邮件等,我们需要让机器判别这些恶意攻击。- 机器训练出来的模型不光性能要强,还要能够对抗人类的恶意、攻击。- 现阶段,各种机器学习的模型很容易被攻击,但是不容易防御。# 二、对抗攻击(Adversarial Attack)## 1、对抗攻击(Adversarial Attack)的分类原创 2020-11-29 00:35:26 · 7157 阅读 · 1 评论 -
人工智能-机器学习:Anomaly Detection(异常检测)
Anomaly Detection,也叫做 异常检测,目的在于让机器知道我所不知道的事情。- 虽然说是 异常,但其实是以训练集为核心,判断输入数据是否与训练集中的数据 “类似”。- Anomaly Detection 在不同的领域可以有不同的叫法,比如:outlier Detection,novelty Detection,exceptions Detection。- 至于什么才是“类似”,它的定义这取决于你所用的方法。如下图所示,如果你给的训练集只有雷丘,那么比卡丘就是“异常”;相反,如果你给的训练原创 2020-12-28 22:48:09 · 3024 阅读 · 1 评论 -
人工智能-机器学习-算法-无监督学习:Contrastive Predictive Coding(对比预测编码)
无监督表示学习(一):2018 Contrastive Predictive Coding(CPC)真正的无监督学习之一——Contrastive Predictive Coding原创 2020-12-28 22:49:58 · 1158 阅读 · 0 评论 -
人工智能-机器学习:机器学习的可解释性(Explainable Machine Learning)
什么是机器学习的可解释性?- 可解释性(explainability)有大量的近义词,比如可理解 (understandable), 可诠释 (interpretable), 透明(transparent), 可靠 (robust), 公平 (fair), 明确(explicit),忠实(faithful), 负责(responsible)。这些词与可解释性 (explainable) 之间到底存在什么样的关系?- 最近有篇来自以色列的19页长文 [Explainability in Human-Age原创 2020-12-18 23:09:56 · 2763 阅读 · 1 评论 -
人工智能:模型复杂度、模型误差、欠拟合、过拟合/泛化能力、过拟合的检测、过拟合解决方案【更多训练数据、Regularization/正则、Shallow、Dropout、Early Stopping】
一、Early Stopping二、Regularization(正则化)Regularization在Deep Learning 模型优化中的作用并不是很显著。1、L1 正则化2、L2 正则化三、DropoutDropout中文含义:退出。其指的就是在神经网络的训练过程中提出的一种防止过拟合的策略。策略旨在训练过程中按照一定的概率(一般情况下:隐藏层采样概率为0.5,输入层采样概率为0.8)随机删除网络中的神经元(输出层除外)。如下为标准的神经网络:Dropout后的神经网络:原创 2020-12-18 23:01:37 · 1226 阅读 · 1 评论 -
模型过拟合-解决方案(一):Regularization/正则化/Weight Decay【L1正则化、L2正则化】【为了约束模型的参数,防止参数过于偏执(为了拟合某些离群点而导致模型过于复杂)】
- 在解决回归**过拟合**中,我们选择正则化。但是对于其他机器学习算法如分类算法来说也会出现这样的问题,除了一些算法本身作用之外(决策树、神经网络),我们更多的也是去自己做特征选择,包括之前说的删除、合并一些特征...原创 2021-02-03 23:32:07 · 421 阅读 · 1 评论 -
人工智能-分类模型-评估指标(一):混淆矩阵【准确率=所有预测正确的样本/总的样本、精确率=将正类预测为正类/所有预测为正类、召回率=将正类预测为正类/所有真正的正类、F1-Measure】【代码】
机器学习(ML),自然语言处理(NLP),信息检索(IR)等领域,评估(Evaluation)是一个必要的工作。一、混淆矩阵对于二分类的模型,预测结果与实际结果分别可以取0和1。我们用N和P代替0和1,T和F表示预测正确和错误。将他们两两组合,就形成了下图所示的混淆矩阵(注意:组合结果都是针对预测结果而言的)。由于1和0是数字,阅读性不好,所以我们分别用P和N表示1和0两种结果。变换之后为PP,PN,NP,NN,阅读性也很差,我并不能轻易地看出来预测的正确性与否。因此,为了能够更清楚地分辨各种预测情况原创 2022-01-07 19:45:51 · 3402 阅读 · 0 评论 -
NLP-基础任务-分词算法:概述【成熟的第三方工具包:中文(jieba、哈工大LTP)、英文(NLTK、SpaCy、StanfordCoreNLP)】
深度学习-自然语言处理(NLP)-文本预处理:分词原创 2021-03-27 21:29:45 · 1366 阅读 · 0 评论 -
XAI(可解释 AI):SHAP(SHapley Additive exPlanations)【机器学习、深度学习解释库】
我们知道模型可解释性已成为机器学习管道的基本部分,它使得机器学习模型不再是"黑匣子"。幸运的是,近年来机器学习相关工具正在迅速发展并变得越来越流行。本文主要是针对回归问题的 SHAP 开源 Python 包进行 XAI 分析。Lundberg 和 Lee (2016) 的 SHAP(Shapley Additive Explanations)是一种基于游戏理论上最优的 Shapley value来解释个体预测的方法。 Shapley value是合作博弈论中一种广泛使用的方法,它具有令人满意的特性。从博原创 2022-03-29 20:52:35 · 3039 阅读 · 0 评论 -
人工智能:模型复杂度【机器学习模型复杂度、深度学习模型复杂度(FLOPs、MAC)】
一、机器学习模型复杂度二、深度学习模型复杂度通常,一个神经网络模型的复杂度用2个指标来描述:模型的参数(Parameters)数量,Params:模型的参数量。模型的计算量:FLOPs:FLoating point OPerations,前向推理的计算量。MAC:Memory Access Cost。MACC(MADD):multiply-accumulate operations:先乘起来再加起来的运算次数。1、时间复杂度(计算量)时间复杂度(计算量):计算量指的需要进原创 2022-03-01 23:15:00 · 3958 阅读 · 0 评论 -
小样本学习(FSL):Few-shot Learning 综述【模型微调(Fine-tunning)、数据增强、迁移学习(Transfer Learning)】
分类非常常见,但如果每个类只有几个标注样本,怎么办呢?比如:我们打造了一个智能对话开发平台以赋能第三方开发者来开发各自业务场景中的任务型对话,其中一个重要功能就是对意图进行分类。大量平台用户在创建一个新对话任务时,并没有大量标注数据,每个意图往往只有几个或十几个样本。面对这类问题,有一个专门的机器学习分支——Few-shot Learning 来进行研究和解决。一、小样本学习方法1、基于模型微调的小样本学习基于模型微调的方法是小样本学习较为传统的方法,该方法通常在大规模数据上预训练模型,在目标小样原创 2022-03-09 22:45:00 · 11140 阅读 · 2 评论 -
自然语言处理(NLP)-第三方库(工具包):Faiss【向量最邻近检索工具】【为稠密向量提供高效相似度搜索】【多种索引构建方式,可根据硬件资源、数据量选择合适方式】【支持十亿级别向量的搜索】
Faiss是Facebook AI团队开源的针对聚类和相似性搜索库,为稠密向量提供高效相似度搜索和聚类,支持十亿级别向量的搜索,是目前最为成熟的近似近邻搜索库。它包含多种搜索任意大小向量集(备注:向量集大小由RAM内存决定)的算法,以及用于算法评估和参数调整的支持代码。Faiss用C++编写,并提供与Numpy完美衔接的Python接口。除此以外,对一些核心算法提供了GPU实现。相关介绍参考《Faiss:Facebook 开源的相似性搜索类库》参考资料:Faiss流程与原理分析 ......原创 2022-02-22 00:13:51 · 1193 阅读 · 1 评论 -
归一化:Layer Normalization、Batch Normalization
Normalization 有很多种,但是它们都有一个共同的目的,那就是把输入转化成均值为 0 方差为 1 的数据。我们在把数据送入激活函数之前进行 normalization(归一化),因为我们不希望输入数据落在激活函数的饱和区。同时,使得训练数据在训练过程中尽可能的保持和测试数据拥有相同的分布。一方面,这样可以减少数据的偏差,避免在训练过程中出现梯度爆炸或是梯度消失的问题;另一方面,这也是确保模型测试性能的重要假设之一。二者提出的目的都是为了加快模型收敛,减少训练时间。LN:Layer原创 2022-02-22 22:15:00 · 1047 阅读 · 0 评论 -
NLP:文本聚类【PCA-->K-means】
什么是文本聚类?文本聚类是将一个个文档由原有的自然语言文字信息转化成数学信息,以高维空间点的形式展现出来,通过计算那些点距离比较近来将那些点聚成一个簇,簇的中心叫做簇心。一个好的聚类要保证簇内点的距离尽量的近,但簇与簇之间的点要尽量的远。文本聚类的难点是什么?聚类是一种非监督学习,也就是说聚成几类,怎么聚,我们都不知道,只能一点点试出来。但是有时候机器认为这两堆点可以认为是两个簇,但人理解可能是一个簇,文本聚类就就难在了这里,机器与人的理解不太一样。一般能看到这个博的人都学过基本的聚类算法,拿k-me原创 2022-02-23 02:27:08 · 2434 阅读 · 0 评论 -
机器学习:Voting和Stacking的模型融合实现
NLP:Voting和Stacking的模型融合实现参考资料:最全NLP中文文本分类实践(下)——Voting和Stacking的模型融合实现原创 2022-01-17 18:21:11 · 497 阅读 · 0 评论