yvestine-优快云博客

原创偏置-方差分解

本文介绍了偏置-方差分解的核心公式及其证明过程。该公式将预测误差分解为偏差平方和方差两部分：偏差衡量模型平均预测与真实值的系统性差异，方差反映模型预测在不同训练集上的波动性。文章通过数学推导证明了该分解的正确性，并分析了不同模型复杂度对偏差和方差的影响：简单模型往往偏差大、方差小，复杂模型则相反。最后，讨论了通过集成方法（如Bagging降方差、Boosting降偏差）来优化模型性能的策略，强调了在偏差与方差之间取得平衡的重要性。

2025-06-18 15:43:52 833

原创自然语言处理——Transformer

介绍了自注意力机制的有关内容和Transformer

2025-06-09 16:04:08 752

原创自然语言处理——循环神经网络

介绍了自然语言处理中的循环神经网络应用，并介绍了注意力机制。

2025-06-09 11:32:23 1245

原创自然语言处理——卷积神经网络

介绍了自然语言处理中的卷积神经网络的基本概念，并介绍了相关的卷积操作

2025-06-09 10:08:36 805

原创自然语言处理——文本表示

本文介绍了自然语言处理中文本表示的两种主要模型：文本概念表示模型（如LSA和LDA）和深度表示学习模型。重点讨论了词语表示学习中的词向量方法，包括C&W模型、CBOW模型和Skip-gram模型。进一步介绍了改进全局信息的GloVe模型，以及字-词混合表示学习。对于短语和句子表示，探讨了词袋方法、递归自动编码器和双语约束模型。这些方法各有优劣，在考虑词序、全局信息和多义词等方面存在不同程度的局限性。

2025-06-08 22:36:19 1224

原创自然语言处理——语言模型

介绍了常见语言模型，包括n元文法和前馈神经网络

2025-06-08 20:34:39 1148

原创自然语言处理——文本分类

文本分类：介绍传统机器学习方法和分类的评估指标

2025-06-08 16:28:13 1173

原创基于规则的自然语言处理

本文介绍了基于规则的自然语言处理技术，涵盖形态还原、中文分词、词性标注、命名实体识别和机器翻译等任务。规则方法通过人工定义的语言知识实现处理，如英语形态还原的曲折/派生/复合变化规则，中文分词的最大匹配算法和歧义消解策略。词性标注需处理兼类词问题，命名实体识别则依赖领域词表。机器翻译包含分析-转换-生成三阶段，中间语言方法可简化多语翻译但难度较高。尽管规则方法精确度高，但也面临知识获取成本高、规则冲突和维护困难等挑战，适用于特定领域任务。

2025-06-08 15:16:08 1130

原创一文读懂半二次分裂算法

半二次分裂算法（Half-Quadratic Splitting, HQS）是一种优化方法，用于求解具有复杂正则化项或非凸项的优化问题。它的核心思想是通过引入辅助变量，将复杂的目标函数分裂为两个简单的子问题，其中一个涉及二次项，从而降低直接优化的难度。直接求解可能较为复杂，HQS 通过引入辅助变量 z将问题分解为两部分。HQS 通过交替优化 x 和 z来逼近问题的最优解。g(x)是正则化项（例如稀疏正则化。是惩罚参数，用于控制二次项的强度。

2025-01-04 16:57:01 2459

原创一文读懂相似性度量法

再画出L1，L2范数的等值线，即在(w1,w2)空间中L1范数与L2范数取值相同的点的连线，如图所示。距离与相似系数通常用来衡量对象之间的差异或相似性，它们在本质上是相反的概念：距离度量的是对象之间的分离程度，而相似系数度量的是对象之间的相似性程度。与欧氏距离不同的是，它考虑到各种特性之间的联系（例如：一条关于身高的信息会带来一条关于体重的信息，因为两者是有关联的），并且是尺度无关的(scale-invariant)，即独立于测量尺度。:F范数是矩阵元素平方和的平方根，类似于向量的L2范数。

2025-01-04 10:12:23 1010

原创一文读懂主成分分析法（PCA）

压缩变量个数，用较少的变量去解释原始数据中的大部分变量，剔除冗余信息。即将许多相关性很高的变量转化成个数较少、能解释大部分原始数据方差且彼此互相独立的几个新变量，也就是所谓的主成分。在实际应用中，当特征个数增加到某一个临界点后，继续增加反而会导致分类器的性能变差。，我们选取协方差矩阵S最大特征值对应的那个特征向量最为投影直线w的方向。消除原始变量间存在的共线性，克服由此造成的运算不稳定、矩阵病态等问题。向通过样本均值的直线w作垂直投影就能得到最小平方误差的结果。

2025-01-03 22:23:10 6906

原创一文读懂相关性分析法

而具有相关关系的变量之间的联系，如果我们对它们有了深刻的规律性认识，并且能够把影响因变量变动的因素全部纳入方程，这时相关关系也可转化为函数关系。另外，相关关系也具有某种变动规律，所以，相关关系也经常可以用一定的函数形式去近似地描述。变量之间存在有依存关系，但这种关系是不完全确定的随机关系，即当一个(或一组)变量每取一个值时，相应的另一个变量可能有多个不同值与之对应。具有函数关系的变量，当存在观测误差和随机因素影响时，其函数关系往往以相关的形式表现出来。用于度量两个变量的单调关系，而不要求线性关系。

2025-01-03 21:49:18 1559

原创一文读懂拟合法

最小二乘法的优点是可以得到一个最优拟合曲线或函数，能够较好地描述数据的分布情况。然而，最小二乘法也有一些限制，比如对于非线性问题，最小二乘法可能无法找到最佳的拟合曲线。但在科学实验和生产实践中，往往节点上的函数值是由实验或观测得到的数据，这些函数值不可避免地带有测量误差，如果要求所得的近似函数曲线精确无误地通过所有的点。为了尽量减少这些误差的影响，从总的趋势上使偏差达到最小，这就提出了曲线拟合的最小二乘法。是一种用于拟合数据的统计方法。插值法是在已知一组离散数据点的情况下，构建一个函数。

2025-01-03 21:07:23 1395

原创一文读懂插值法

根据一组数据点所得的近似公式叫插值公式，已知的数据点叫节点。

2025-01-03 20:32:03 5724

原创数据挖掘——模型的评价

该方法中，不是用训练集估计泛化误差，而是把原始的训练数据集分为两个较小的子集，一个子集用于训练，而另一个称为验证集，用于估计泛化误差。给定一个二元分类模型和它的阈值，就能从所有样本的(阳性／阴性)真实值和预测值计算出一个 (X=FPR,Y=TPR)坐标点。由于训练数据缺乏具有代表性的样本，在没有多少训练记录的情况下，学习算法仍然细化模型就会产生过分拟合。一个好的分类模型不仅要能够很好的拟合训练数据，而且对未知样本也要能准确分类。理想的复杂度是能产生最低泛化误差的模型的复杂度。的模型高，这种情况成为模型。

2025-01-02 17:48:42 1449

原创数据挖掘——集成学习

集成学习（Ensemble learning）方法通过组合多种学习算法来获得比单独使用任何一种算法更好的预测性能。

2025-01-02 17:31:47 1411

原创数据挖掘——聚类

什么是聚类？是把数据对象集合按照相似性划分成多个子集的过程。每个子集是一个簇（cluster），使得簇中的对象彼此相似，但与其他簇中的对象不相似。聚类是无监督学习：给定的数据没有类标号信息

2025-01-02 15:46:20 1654

原创数据挖掘——关联规则挖掘

关联分析用于发现隐藏在大型数据集中的令人感兴趣的联系，所发现的模式通常用关联规则或频繁项集的形式表示。关联规则反映一个事物与其它事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系，那么，其中一个事物发生就能够预测与它相关联的其它事物的发生。

2025-01-02 15:23:58 2069

原创数据挖掘——神经网络分类

人工神经网络主要由大量的神经元以及它们之间的有向连接构成。比较常见的有ReLU和Logistic函数。使用S型激活函数时BP网络输入与输出关系。初始化权重：循环以下两步，直到满足条件。人工神经网络比感知机模型复杂。BP算法的学习过程的终止条件。通过隐层向输入层逐层反传。学习的类型：监督式学习。

2025-01-02 14:41:50 732

原创数据挖掘——支持向量机分类器

Vapnik于1995年提出的支持向量机（Support Vector Machine, SVM）以训练误差作为优化问题的约束条件，以置信范围值最小化作为优化目标，即SVM是一种基于。而基于经验风险最小化准则的学习方法只强调了训练样本的经验风险最小误差，没有。：训练完成后，大部分的训练样本都不需保留，最终模型仅与支持向量有关。准则的学习方法，其泛化能力明显优于一些传统的学习方法。的求解，因此SVM的解是全局唯一的最优解。

2025-01-02 11:50:04 1118

原创数据挖掘——回归算法

如果把其中的一些因素（房屋面积）作为自变量，而另一些随自变量的变化而变化的变量作为因变量（房价），研究他们之间的非确定映射关系，这种分析就称为回归分析。回归分析是研究一个或多个自变量与一个因变量之间是否存在某种线性关系或非线性关系的一种统计学方法。

2025-01-02 10:50:15 1496

原创数据挖掘——规则和最近邻分类器

如果规则集涵盖了属性值的所有可能组合，则规则集具有穷举覆盖。简单理解就是当前规则分类效果比随机效果越高，说明规则越好。举例：规则:(Status=Single) → No。如果规则集是非穷举的，一个记录可能不被任何规则触发。如果 k 太大, 邻域可能包含很多其他类的点。是被规则覆盖的类i的样本的观测频度。如果 k 太小, 则对噪声点敏感。是规则作随机猜测的期望频度。

2025-01-02 10:29:09 1456

原创数据挖掘——决策树分类

决策树是一种构建分类（回归）模型的非参数方法不需要昂贵的的计算代价决策树相对容易解释决策树是学习离散值函数的典型代表决策数对于噪声的干扰具有相当好的鲁棒性冗余属性不会对决策树的准确率造成不利影响数据碎片问题：随着树的生长，可能导致叶结点记录数太少，对于叶结点代表的类，不能做出具有统计意义的判决子树可能在决策树中重复多次，使决策树过于复杂决策树无法学习特征之间的线性关系，难以完成特征构造。

2025-01-01 21:21:41 1743

原创数据挖掘——朴素贝叶斯分类

本质上是同时考虑了先验概率和似然概率的重要性特点属性可以离散、也可以连续数学基础坚实、分类效率稳定对缺失和噪声数据不太敏感属性如果不相关，分类效果很好。

2025-01-01 20:52:30 1481

原创数据挖掘——数据预处理

数据预处理是指在数据分析之前对原始数据进行清洗、转换、集成、规范化等操作，以准备好适合分析和建模的数据。

2025-01-01 20:31:57 3333 2

原创数据挖掘——认识数据

介绍了数据挖掘当中数据的概念，并介绍了数据相似性和相异性度量的方法

2025-01-01 18:41:38 2152

原创数据挖掘——概论

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

2025-01-01 18:09:24 907

原创一文读懂变分自编码(VAE)

变分自编码器（Variational Autoencoder, VAE）是一种生成模型，用于学习数据的潜在表示并生成与原始数据分布相似的新数据。它是一种概率模型，通过结合深度学习和变分推断的思想，解决了传统自编码器无法生成数据的限制。

2024-12-29 20:53:12 11186

原创一文读懂混合专家模型（MoE）

混合专家模型是一种机器学习和深度学习中的模型架构，它通过多个“专家”子模型来处理不同类型的输入数据或任务。在MoE模型中，输入数据通过一个“门控网络”（gating network）来选择和分配给最适合的专家模型，最终的预测结果由这些专家的输出加权合并而成。这种结构尤其适用于复杂任务或大规模数据，因为不同的专家可以专注于数据的特定特征或任务的某个方面，从而提升整体模型的效率和性能。

2024-12-29 20:06:20 2948