- 博客(124)
- 资源 (4)
- 收藏
- 关注
原创 散列表(1)-集合/用位向量实现集合
散列表(1)-集合/用位向量实现集合1_集合1.1_集合的定义1.2_集合的记号1.3_定义在集合上的基本运算2_用位向量实现集合(附实现代码☟)
2022-10-29 11:25:15
1373
原创 【玄说✅数据结构与算法】【初阶】—— 排序
🎈排序的概念及其运用🎈插入排序🎈希尔排序( 缩小增量排序)🎈选择排序🎈堆排序🎈冒泡排序🎈快速排序🎈归并排序🎈非递归排序
2022-08-02 10:08:42
450
1
机器学习实战 - KNN(K近邻)算法PDF知识点详解 + 代码实现
邻近算法,或者说K最邻近(KNN,K-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的K个邻近值来代表。近邻算法就是将数据集合中每一个记录进行分类的方法.
KNN(K- Nearest Neighbor)法即K最邻近法,最初由 Cover和Hart于1968年提出,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路非常简单直观:如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别 [2] 。
该方法的不足之处是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最邻近点。目前常用的解决方法是事先对已知样本点进行剪辑,事先去除对分类作用不大的样本。另外还有一种 Reverse KNN法,它能降低KNN算法的计算复杂度,提高分类的效率 [2] 。
KNN算法比较适用于样本容量比较大的类域的自动分类
2022-04-27
机器学习实战 - 朴素贝叶斯算法PDF知识点详解 + 代码实现
贝叶斯分类算法是统计学的一种概率分类方法,朴素贝叶斯分类是贝叶斯分类中最简单的一种。其分类原理就是利
用贝叶斯公式根据某特征的先验概率计算出其后验概率,然后选择具有最大后验概率的类作为该特征所属的类。之所以称之为”朴素”,是因为贝叶斯分类只做最原始、最简单的假设:所有的特征之间是统计独立的。
朴素贝叶斯法(Naive Bayes model)是基于贝叶斯定理与特征条件独立假设的分类方法。
最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM)。和决策树模型相比,朴素贝叶斯分类器(Naive Bayes Classifier 或 NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响
2022-04-27
机器学习实战 - 决策树PDF知识点总结 + 代码实现
决策树(Decision Tree)是监督学习中的一种算法,并且是一种基本的分类与回归的方法
决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度,使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。
决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。
分类树(决策树)是一种十分常用的分类方法。它是一种监督学习,所谓监督学习就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器
1.什么是决策树
2.决策树的构建准备工作
3.使用决策树进行分类
4.使用SKlearn中graphviz包实现决策树的绘制
2022-04-27
机器学习实战 - k近邻算法(KNN算法)总结
机器学习实战 - k近邻算法(KNN算法)总结
适合机器学习实战入门新手
K-近邻算法,又称为 KNN 算法,是数据挖掘技术中原理最简单的算法。
KNN 的工作原理:给定一个已知类别标签的数据训练集,输入没有标签的新数据后,在训练数据集中找到与新数据最临近的 K 个实例。如果这 K 个实例的多数属于某个类别,那么新数据就属于这个类别。
优点
1简单好用,容易理解,精度高,理论成熟,即可以用来做分类也可以用来做回归
2可用于数值型数据和离散型数据
3无数据输入假定
4适合对稀有事件进行分类
缺点
1计算复杂性高;空间复杂性高
2计算量太大,所以一般数值很大的时候不用这个,但是单个样本又不能太少,否则容易发生误分
3样本不平衡问题(即某些类别的样本数量很多,某些类别的样本数量很少)
4可理解性比较差,无法给出数据的内在含义
2022-04-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人