
机器学习基础
文章平均质量分 61
机器学习基础,记录自己的学习过程
小小小~
人工智能爱好者
展开
-
卷积神经网络“卷积”的深层理解
在高等数学中,卷积是一个泛函数,具体来说就是通过两个函数f和g生成第三个函数的一种数学运算,其本质是一种特殊的积分变换,表征函数f与g经过翻转和平移的重叠部分函数值乘积对重叠长度的积分。......原创 2022-06-19 16:04:56 · 4421 阅读 · 1 评论 -
L1正则化和L2正则化
在机器学习以及深度学习中我们经常会看到正则化这一名词,下面就浅谈一下什么是正则化?以及正则化的意义所在?一、什么是正则化?正则化项 (又称惩罚项),惩罚的是模型的参数,其值恒为非负λ是正则化系数,是一个超参数,调节惩罚的力度,越大则惩罚力度越大。二、正则化的目的?先上图:上图从左到右依次为:欠拟合、理想状态、过拟合欠拟合从字面意思来看就是欠缺拟合程度,这一般在复杂度很低的模型中出现。从数学上来看,一元一次函数为一条直线、一元二次函数为一个曲线,以此类推。那么参数越多,其越能拟合更复杂的特征原创 2022-04-01 15:45:41 · 21356 阅读 · 1 评论 -
机器学习之实战
之前参加数学建模简单的用sklearn进行了MLP以及随机森林进行了回归建模,现将代码进行记录:原创 2021-12-18 21:11:03 · 641 阅读 · 0 评论 -
机器学习(十二)
上图是描述线性回归过程的一个例子。横坐标表示目标值,纵坐标表示一个特征值。这样我们就可以在坐标系中生成一个散点图,我们算法实现的就是通过这些散点图来运算出最符合这些数据的一条直线(图中的红线)线性回归就是通过一个或者多个自变量(特征)与因变量(目标值)之间进行建模的回归分析。上式中的w为权重(某一特征在整体上所占据的权重),b为偏置项,x为特征值。w和x为如下矩阵矩阵的运算原创 2021-09-05 15:56:14 · 599 阅读 · 0 评论 -
机器学习(十一)
决策树与随机森林原创 2021-08-25 10:33:22 · 165 阅读 · 0 评论 -
机器学习(十)
朴素贝叶斯算法:一、概率:我们往往将一件事情发生的可能性称之为概率,例如我们在初中所学习的:仍一枚筛子,一点的可能性称之为概率。原创 2021-08-19 17:10:43 · 108 阅读 · 0 评论 -
机器学习(九)
K近邻算法在机器学习中是最为容易理解的一类算法,这类算法的中心思想就是就是计算未知的样本与已知样本的在特征空间中的距离,通过距离的运算来取K个与之最近距离的样本,如果这K个样本的大多数属于某一类别,则此未知样本则属于该类别。原创 2021-08-16 19:40:21 · 100 阅读 · 0 评论 -
机器学习(八)
(一)、算法类型的选择:在机器学习过程中对于相关算法的选择也是至关重要的,一般算法的选择往往与数据类型息息相关。1、离散数据类型:离散数据类型又称计数数据类型。离散数据中的数据之间是不连续的,具有明确的要素边界。例如,道路有宽度和长度,在地图上表示为线。地籍图可以显示出各宗地之间的边界。地图上各要素的特征(如所有者名称、宗地编号和有效面积)都存在着明显的不同。2、连续数据类型:在一定区间内可以任意取值的数据叫连续数据,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数原创 2021-08-15 16:42:44 · 255 阅读 · 0 评论 -
机器学习(七)
在之前的博客里一直在使用fit_transform()这一api,下面就解释一下这一API的作用:fit_transform()的作用是:输入数据,并直接进行相应的计算。与此同时,有两个API与之非常相似,即fit()、transform()fit()的作用是传入数据,并计算传入数据相应的结果——传入数据的平均值等,但不进行最终数据的运算。transform()的作用是:引用之前传入fit()的数据计算的相应结果,并进行当前传入数据的最终结果运算。此API单独使用原创 2021-08-12 20:19:17 · 740 阅读 · 0 评论 -
机器学习(六)
为了方便机器学习算法的训练以及对训练结果的评估,我们往往将所得到的数据进行划分,我们将原始数据划分为两部分:训练集、测试集。一般情况下,训练集与测试集的占比往往为:0.7:0.3;0.8:0.2;0.75:0.25。在日常训练过程中0.75:0.25的占比使用相对多一点。原创 2021-08-11 21:42:47 · 293 阅读 · 0 评论 -
机器学习(五)
特征选择是去除一些与预测结果没有关系或者两个特征有高度关联的特征作为机器学习接下来训练集。这里举个例子:预测狗的品种,这里有毛的颜色,有没有牙齿,眼睛颜色。显然有没有牙齿这一特征与预测结果没有关系,这里则需要将这一特征手动删除。(1)、特征选择的方式:1、过滤式(filter):方差阈值(variance threshold)2、嵌入式(embedded):正则化、决策树等3、包裹式(wrapper):略原创 2021-08-08 18:34:52 · 286 阅读 · 0 评论 -
机器学习(四)
为了便于后续算法的计算,我们将原始数据进行归一化,归一化主要是为了数据处理方便,把数据映射到0~1范围之内处理,更加便捷快速。公式如下:原创 2021-08-08 12:10:01 · 492 阅读 · 0 评论 -
机器学习(三)
上一篇博文中介绍了计数文本特征的处理。由于一个词出现的数量往往并不能很好地反映这个文章的类型,对于文章的文分类误差较大,故计数往往在现实生活中并不常用。这篇文章主要是我们在机器学习中常用的一种方法,TF和IDF原创 2021-08-07 19:22:42 · 207 阅读 · 0 评论 -
机器学习(二)
这一api主要是起到文本中某些单词出现的次数进行统计,通过统计文本中某些单词出现的次数来判断这一文章的类型。例如 love等词出现过很多次,可以大体猜测出这一文章主要是情感类文章(仅仅举例,不要抬杠,杠就是你对)。原创 2021-08-07 18:52:59 · 244 阅读 · 0 评论 -
机器学习(一)
一、数据结构的组成:数据结构大部分为:特征值+目标值,但是也有些数据没有目标值。在机器学习中常常使用pandas来进行数据的处理以及基本格式的调节。(一)、特征值:一般情况下,能反映出目标所存在的特征的数值为特征值。例如:我们要判断一个人的性别,则特征值为身高、体重、长发短发等。这些特征有些可以反映出一些目标值的主要特点,但是有些特征值则不是很明显,例如长发短发等。所以我们在进行预测时往往需要对特征值进行一下筛选。原创 2021-08-07 16:39:09 · 1497 阅读 · 0 评论