
机器学习
文章平均质量分 68
张嘉烘
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习——前言
关于这份机器学习没有过多的涉及理论层面,目的是用来快速上手运行机器学习的实操代码。对应的视频教程是来自哔哩哔哩的。原创 2023-06-12 13:00:00 · 556 阅读 · 1 评论 -
day12——模型保存和加载
在加载的代码中,不需要导入线性回归 LinearRegression 包进行模型预测,只需要加载模型就可以预测。在保存的代码中,是对训练集的特征值 x_train 进行标准化,在加载的代码中是对测试集的特征值 x_test 进行标准化,都需要调用 fit_transform 而不能直接用 transform。原创 2023-06-12 12:00:00 · 239 阅读 · 0 评论 -
day11——分类算法之逻辑回归与二分类
逻辑回归是机器学习中的一种分类模型,可用于判断是否为垃圾邮件、是否患病等场景。可以发现逻辑回归的特点,那就是都属于两个类别之间的判断,解决二分类问题。(1)699条样本,共11列数据,第一列用语检索的id,后9列分别是与肿瘤相关的医学特征,最后一列表示肿瘤类型的数值。回归的结果输入到sigmoid函数当中,输出结果为 [0, 1] 区间中的一个概率值,默认为0.5为阈值。(2)包含16个缺失值,用”?”标出,需要进行缺失值处理。逻辑回归的输入就是一个线性回归的结果。原创 2023-06-11 11:30:07 · 127 阅读 · 0 评论 -
day10——线性回归的改进之岭回归
岭回归,其实是一种带有 L2 正则化的线性回归。在算法建立回归方程的时候,加上正则化的限制,从而达到解决过拟合的效果。已有的天鹅图片全是白天鹅的,机器学习认为天鹅的羽毛都是白的,在识别羽毛是黑的天鹅就会认为那不是天鹅。如下所示,机器学习到的天鹅特征太少了,导致区分标准太粗糙,不能准确识别出天鹅。优点:越小的参数说明模型越简单,越简单的模型则越不容易产生过拟合现象。作用:可以使得其中一些W的都很小,都接近于0,削弱某个特征的影响。作用:可以使得其中一些W的值直接为0,删除这个特征的影响。原创 2023-06-10 11:23:58 · 1260 阅读 · 0 评论 -
day09——线性回归
定义:线性回归是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。应用场景有房价预测、销售额度预测等期末成绩: 0.7 × 考试成绩 + 0.3 × 平时成绩房子价格 = 0.02 × 中心区域的距离 + 0.04 × 城市一氧化氮浓度 +(- 0.12 × 自住房平均房价) + 0.254 × 城镇犯罪率。原创 2023-06-09 17:10:23 · 906 阅读 · 0 评论 -
day08——随机森林
在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。例如, 如果你训练了5个树, 其中有4个树的结果是True, 1个数的结果是False, 那么最终投票结果就是True。原创 2023-06-08 12:00:00 · 693 阅读 · 0 评论 -
day07——决策树
数据描述泰坦尼克号上的个别乘客的生存状态。其中包括旅客名单,数据集中的特征是票的类别,存活,乘坐班,年龄,登陆,home.dest,房间,票,船和性别。1、乘坐班是指乘客班(1,2,3),是社会经济阶层的代表。2、其中age数据存在缺失。原创 2023-06-07 13:42:31 · 577 阅读 · 0 评论 -
day06——朴素贝叶斯算法
朴素贝叶斯分类方法是一种基于贝叶斯定理的统计学习分类算法。它假设所有特征之间相互独立,且每个特征对于类别的影响是等价的,因此被称为“朴素”。该方法通过先验概率和观测数据的条件概率来计算后验概率,然后将待分类样本分配到具有最大后验概率的类别中。在文本分类、垃圾邮件过滤、情感分析等领域具有广泛应用。举例:根据以下数据,此时如果一个男生向女生求婚,男生的四个特点分别是不帅,性格不好,身高矮,不上进,请你判断一下女生是嫁还是不嫁?朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率。原创 2023-06-06 15:15:19 · 1155 阅读 · 0 评论 -
day05——K-近邻算法
如果一个样本在特征空间中的 k 个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。两个样本的距离可以通过如下公式计算,又叫欧式距离将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成5份,其中一份作为验证集。然后经过5次(组)的测试,每次都更换不同的验证集。即得到5组模型的结果,取平均值作为最终结果。又称5折交叉验证。优点:简单,易于理解,易于实现,无需训练缺点:懒惰算法,对测试样本分类时的计算量大,内存开销大。原创 2023-06-05 21:37:28 · 638 阅读 · 0 评论 -
day04——特征处理之特征降维
特征降维:如果特征本身存在问题或者特征之间相关性较强,对于算法学习预测会影响较大。降维是指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程降维的两种方式1,特征选择2,主成分分析(可以理解一种特征提取的方式)原创 2023-06-03 17:52:45 · 610 阅读 · 0 评论 -
day03——特征处理之特征预处理
特征的单位或者大小相差较大,或者某特征的方差相比其他的特征要大出几个数量级,容易影响目标结果,使得一些算法无法学习到其它的特征。所以需要通过转换函数将特征数据转换成更加适合算法模型的特征预处理,包括了对数值型数据进行归一化和标准化。# 特征预处理 api sklearn . preprocessing。原创 2023-06-02 17:43:47 · 91 阅读 · 0 评论 -
day02——特征工程之特征提取
特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程,直接影响机器学习的效果。特征工程包括:特征提取,特征预处理,特征降维。原创 2023-06-01 13:49:17 · 620 阅读 · 0 评论 -
day01——sklearn数据集
当然是不行的,数据对于开发人员来说是非常珍贵的,我们需要把数据分为训练数据和测试数据。训练数据用于训练,构建模型,测试数据在模型检验时使用,用于评估模型是否有效,一般测试集占全部数据的 20%~30%x_train, x_test, y_train, y_test:训练集特征值,测试集特征值,训练集目标值,测试集目标值。subset:‘train’或者’test’,‘all’,选择要加载的数据集。2,sklearn.datasets.fetch_* 获取大规模数据集,需要从网络上下载。原创 2023-05-31 16:49:06 · 208 阅读 · 0 评论