
常用算法
文章平均质量分 67
我很好请走开谢谢
这个作者很懒,什么都没留下…
展开
-
字典特征提取,文本特征提取。
文章目录1 定义2. 字典特征提取API3. 字典特征提取案例:1.实现效果:2.实现代码4. 文本特征提取1. 方法2. 英文案例1. 实现效果2.流程3. 中文案例使用到的包1 定义将任意数据(如文本或图像)转换为可用于机器学习的数字特征注:特征值化是为了计算机更好的去理解数据特征提取分类:字典特征提取(特征离散化)文本特征提取图像特征提取2. 字典特征提取APIsklearn.feature_extraction3. 字典特征提取案例:1.实现效果:2.实现代码原创 2022-03-09 10:47:59 · 1879 阅读 · 0 评论 -
决策树算法---简介、分类原理(熵、信息增益、信息增益率、基尼值和基尼指数)、决策树构建基本步骤
文章目录一、简介二、决策树分类原理1.熵2.决策树的划分依据一------信息增益3. 决策树的划分依据二----信息增益率4.决策树的划分依据三——基尼值和基尼指数5. 决策树构建的基本步骤如下:6.总结 常见决策树类型比较6.1 ID3 算法6.2 C4.5算法6.3 CART算法一、简介决策树:是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树。二、决策树分类原理1.熵熵 是指混乱程度(虽原创 2022-03-09 10:16:31 · 1355 阅读 · 0 评论 -
逻辑回归---简介、API简介、案例:癌症分类预测、分类评估法以及ROC曲线和AUC指标
文章目录一、介绍1. 大白话~2.损失和优化二、API介绍三、案例:癌症分类预测一、介绍1. 大白话~虽然带有“回归”两个字,但是输出的结果是离散的。和线性回归的区别,多了一个激活函数(sigmoid函数),增加模型的非线性拟合能力。2.损失和优化逻辑回归的损失,称之为对数似然损失,公式如下:通过上面这个公式可以计算损失值。二、API介绍三、案例:癌症分类预测案例的重点就是运用了一下“逻辑回归”的这个训练器import pandas as pdimport numpy a原创 2022-03-08 15:06:45 · 1343 阅读 · 0 评论 -
线性回归02---波士顿房价预测
文章目录一、获取数据二、数据分析2.1描述性统计分析2.2 散点图分析1. 先绘制一个2. 把其余的也绘制出来三、数据处理四、特征工程 标准化五、机器学习 创建模型六、模型评估七、全部代码写在最前 :参考了一位博主的博客进行了学习,讲得很好,很细致。传送门点这儿哈这个案例是以线性回归为模型预测的,目的为求出一个线性函数,每个特征所占参数,最后并对这个所求的线性函数进行模型评估。一、获取数据二、数据分析2.1描述性统计分析 # 2.1描述性统计分析 # describe()是返原创 2022-03-08 09:53:07 · 2058 阅读 · 1 评论 -
线性回归简介01---API使用案例
文章目录一、API初步使用一、API初步使用API介绍案例给定一个数据集代码from sklearn.linear_model import LinearRegression# 1.获取数据x = [[80, 86],[82, 80],[85, 78],[90, 90],[86, 82],[82, 90],[78, 80],[92, 94]]y = [84.2, 80.6, 80.1, 90, 83.2, 87.6, 79.4, 93.4]# 2.数据基本处原创 2022-03-08 09:37:24 · 192 阅读 · 0 评论 -
K近邻算法04---案例:预测Facebook签到位置
注: 这部分看博客注释与运行截图就差不多能理解啦,把代码复制到自己的编译器中分别运行,认真体会每一步。一、代码截图和运行截图二、全部代码import pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.neighbors import KNeighborsClassifierfrom s原创 2022-01-27 12:52:47 · 950 阅读 · 0 评论 -
K近邻算法03--交叉验证、网格搜索
文章目录一、交叉验证,网格搜索1.什么是交叉验证(cross validation)2. 为什么需要交叉验证3.什么是网格搜索(Grid Search)4.交叉验证,网格搜索(模型选择与调优)API:5.例子:鸢尾花案例增加K值调优一、交叉验证,网格搜索1.什么是交叉验证(cross validation)交叉验证:将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交原创 2022-01-27 11:10:43 · 354 阅读 · 0 评论 -
K近邻算法02---sklearn数据集获取(特征值、标签等)、查看数据分布(散点图)、数据集划分(测试和训练集)、特征工程(标准化和归一化)、鸢尾花种类预测的实现流程
文章目录1.sklearn数据集的获取(1)scikit-learn数据集API介绍(2) sklearn数据集返回值介绍(3)举例子2.查看数据分布3.数据集划分4.特征工程-特征预处理(标准化和归一化)(1)特征预处理定义(2)归一化(3)标准化(4)标准化和归一化的区别(5)标准化和归一化的例子5.大整合---鸢尾花种类预测(实现流程)1.sklearn数据集的获取(1)scikit-learn数据集API介绍(2) sklearn数据集返回值介绍(3)举例子小数据 获取数据原创 2022-01-26 22:22:08 · 3098 阅读 · 0 评论 -
K近邻算法01---K-近邻算法简介、K近邻算法API使用、KD树
文章目录一、K-近邻算法简介二、k近邻算法api初步使用1.K-近邻算法API2.一个案例(1)步骤分析(2)代码过程3.小结三、kd树1.问题导入2.kd树简介一、K-近邻算法简介K Nearest Neighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法, 总体来说KNN算法是相对比较容易理解的算法定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。距离公式两个样本的距离可以通过如下公式计算,又叫原创 2022-01-26 21:47:21 · 242 阅读 · 0 评论