
统计学习方法
文章平均质量分 94
煎饼证
法师
展开
-
【NLP】经典文本匹配算法
文章目录Jaccard相似度Levenshtein编辑距离SimhashTF-IDFBM25其他文本匹配主要是将两段文本进行相似度计算,以选择最匹配的内容,如搜索场景下选择相似的内容、问答场景下在问题库中匹配最相近的问题并返回对应的回答等。也可延伸用于序列形式的匹配,如地址匹配、路径序列等。本文主要整理一下经典的文本匹配/相似度计算算法,包括Jaccard相似度、Levenshtein编辑距离、Simhash、TF-IDF、BM25。Jaccard相似度参考链接:https://en.wikiped原创 2021-02-08 02:09:29 · 3126 阅读 · 0 评论 -
【统计学习方法】学习笔记-第3章-k近邻法
(知乎:https://zhuanlan.zhihu.com/p/314613894)k近邻法(k-nearest neighbor,k-NN)是一种基本分类和回归方法(这里讨论分类),对于新的实例,根据其k个最近邻的训练实例的类别,通过多数表决等方式预测。k近邻不具有显式的学习过程,是利用训练数据对特征空间进行划分,作为分类模型。k近邻法的三个基本要素——k值选择、距离度量、分类决策规则。3.1 k近邻算法【算法3.1(k近邻法)】当k=1时的特殊情况,称为最近邻算法。3.2 k近邻模原创 2020-11-27 02:09:34 · 406 阅读 · 3 评论 -
【统计学习方法】学习笔记-第2章-感知机
【统计学习方法】学习笔记-第2章-感知机感知机(perceptron)是一种二分类的线性分类模型,对应于输入空间中将实例划分为正负两类的分离超平面,属于判别模型。感知机的学习就是基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,得到线性划分的分离超平面。模型:f(x)=sign(w⋅x+b)f(x)=\text{sign}(w\cdot x+b)f(x)=sign(w⋅x+b)策略:极小化损失函数L(w,b)=−∑xi∈Myi(w⋅xi+b)L(w,b)=-\sum_{x_i \in M}y原创 2020-11-23 03:17:32 · 229 阅读 · 1 评论 -
【统计学习方法】学习笔记-第1章-统计学习及监督学习概论
【知乎:https://zhuanlan.zhihu.com/p/305028771】【统计学习方法】学习笔记-第1章-统计学习及监督学习概论1.1 统计学习统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科。统计学习也称为统计机器学习(statistical machine learning)赫尔伯特·西蒙(Herbert A.Simon)对“学习”的定义:如果一个系统能够通过执行某个过程改进它的性能,这就是学习统计原创 2020-11-21 23:04:47 · 431 阅读 · 0 评论