
AIML笔记
文章平均质量分 93
介绍AI、ML相关知识
Laurence
架构师,著有《大数据平台架构与原型实现:数据中台建设实战》一书,对大数据、云计算、数据湖、数据中台、企业级应用架构、域驱动设计有丰富的实践经验。
展开
-
多分类问题的处理策略和评估手段
多分类问题基本都是建立在二分类问题基础之上的,简单说就是:将多分类问题拆解成多个二分类问题去解决,具体来说,通常有两种策略:One-Versus-The-Rest (OvR) 也叫 One-Versus-All(OvA):即每一个类别和所有其他类别做一次二分类,全部类别都做完后,就等于实现了多分类。一个有N种分类的问题使用此策略需要进行N次二分类处理 One-Versus-One(OvO)即每一个类别都和另一个类比做一次1V1的二分类,全部类别原创 2023-02-16 08:58:56 · 2415 阅读 · 0 评论 -
分类模型评估:混淆矩阵、准确率、召回率、ROC
在二分类问题中,混淆矩阵被用来度量模型的准确率。因为在二分类问题中单一样本的预测结果只有Yes or No,即:真或者假两种结果,所以全体样本的经二分类模型处理后,处理结果不外乎四种情况,每种情况都有一个专门称谓,如果用一个2行2列表格描述,得到的就是“混淆矩阵”。其中,假阳性(FP)又被称为“Type 1 Error”,假阴性(FN)又被称为“Type 2 Error”。在所有“预测为真”(TP+FP)的数据中,有多少是“真得预测对了”(TP)的? 这个百分比叫“准确率”(Precision)在所有“实际原创 2023-02-13 11:58:55 · 3921 阅读 · 0 评论 -
Sklearn超参调优手段:网格搜索(Grid Search)和随机搜索(Randomized Search)
超参调优是“模型调优”(Model Tuning)阶段最主要的工作,是直接影响模型最终效果的关键步骤,然而,超参调优本身却是一项非常低级且枯燥的工作,因为它的策略就是:不断变换参数值,一轮一轮地去“试”,直到找出结果最好的一组参数。显然,这个过程是可以通过编程封装成自动化的工作,而不是靠蛮力手动去一遍一遍的测试。为此,Sklearn提供了多种(自动化)超参调优方法(官方文档),其中网格搜索(Grid Search)和随机搜索(Randomized Search)是最基础也是最常用的两个原创 2023-02-06 09:54:52 · 4243 阅读 · 0 评论 -
Sklearn中的算法效果评估手段
评估算法效果使用的主要方法:均方根误差(RMSE),但在实际应用中,评估算法效果还有更多内容,本文我们以《Hands-On ML》一书第二章中介绍的房价预测案例,细致地介绍一下Sklearn中的度量一个算法表现/效果好坏的手段。在模型选择阶段,我们通常会尝试不同的算法,然后评估它们的表现,并选择最好的一种算法。这个过程大致可以分为如下几步:原创 2023-02-02 08:41:00 · 717 阅读 · 0 评论 -
Sklearn标准化和归一化方法汇总(3):范数归一化
范数归一化的计算逻辑是:先计算出一个向量(通常是一行)的范数(如无特殊说明,通常都是指L-2范数),然后让向量中的每一个元素除以这个范数,得到的新向量就是范数归一化后的结果。所以,了解范数归一化的原理关键是要理解:什么是范数?我们已经在此前以前文章中专门做了介绍,请参考《范数的意义与计算方法》一文。原创 2023-01-18 10:12:11 · 2555 阅读 · 0 评论 -
Sklearn标准化和归一化方法汇总(2):Min-Max归一化
Min-Max归一化的算法是:先找出数据集通常是一列数据)的最大值和最小值,然后所有元素先减去最小值,再除以最大值和最小值的差,结果就是归一化后的数据了。经Min-Max归一化后,数据集整体将会平移到[0,1]的区间内,数据分布不变。原创 2023-01-17 13:03:52 · 5536 阅读 · 0 评论 -
Sklearn标准化和归一化方法汇总(1):标准化 / 标准差归一化 / Z-Score归一化
标准化 / 标准差归一化 / Z-Score归一化的算法是:先求出数据集(通常是一列数据)的均值和标准差,然后所有元素先减去均值,再除以标准差,结果就是归一化后的数据了。经标准差归一化后,数据集整体将会平移到以0点中心的位置上,同时会被缩放到标准差为1的区间内。要注意的是数据集的标准差变为1,并不意味着所有的数据都会被缩放到[-1,1]之间,下文有示例为证。原创 2023-01-17 12:15:00 · 5254 阅读 · 1 评论 -
标准化和归一化概念澄清与梳理
由于翻译和命名上的歧义性以及各种误传误用,特征缩放领域里的术语和概念非常混乱,包括:标准化、正规化、正则化、归一化、Standardization、Normalization在内的这些概念既有关联又有差异,再加上它们的原始出处已基本都不可考,所以被大量混用和滥用,在一些劣质文章中会经常看到张冠李戴或相互矛盾的说法。本文我们会尽量结合字面含义和多数资料的描述,对这些概念做一轮梳理。原创 2023-01-16 08:30:14 · 1824 阅读 · 1 评论 -
范数的意义与计算方法
范数可以简单的理解为“距离”。由于向量是既有大小又有方向的量,所以向量是不能直接比较大小的,但是范数提供了一种方法,可以将所有的向量转化为一个实数,然后就可以比较向量的大小了。(注:本文我们只讨论向量范数,向量范数表征向量空间中向量的大小,另一种叫矩阵范数,表征矩阵引起变化的大小。范数并不是一个数,而是一组数,我们先了解一下最常用的L-2范数范数,它的计算方法是:将向量的每一个分量平方后再求和,然后对和开平方,得到的就是这个向量的L-2范数范数了原创 2023-01-11 11:46:08 · 17128 阅读 · 0 评论 -
正态分布与numpy.random.normal函数
在Numpy中,有一个专门用于生成符合正态分布的随机数函数:numpy.random.normal,本文我们梳理一下它的使用方法,在梳理前,需要先了解一下什么是正态分布。正态分布(Normal Distribution)又称高斯分布(Gaussian Distribution)。记得以前这个函数是在大学概率论里才介绍的,现在它已经出现在了高中课本中…这个神奇的函数描绘了现实世界中绝大多数事物的分布形态,用通俗的话解释“正态分布”就是:一个群体在某种指标上,绝大部分个体会落在平均值附近,超过平均值太多或低于平原创 2023-01-03 09:16:32 · 3125 阅读 · 2 评论 -
方差和标准差的意义
在此前一篇文章中,我们介绍了方差/标准差的计算方法,也点出了它们是用来“度量数据离散程度”的一种数学方法,但是对于它们的意义并没有给出更具体和形象的解释。本文,我们把这块内容补上。一言以蔽之,。反之,我们也可以在一些工具中通过设定方差/标准差的大小来生成离散程度不同的数据集,本文,我们就用这种方法来帮助我们理解方差/标准差的意义。原创 2023-01-02 14:44:11 · 5214 阅读 · 0 评论 -
抽样偏差(Sampling Bias)与 分层抽样(Stratified Sampling)
通常最基本的采样手段是:随机抽样,但是在很多场景下,随机抽样是有问题的,举一个简单的例子:如果现在要发起一个啤酒品牌知名度的调查问卷,我们能使用随机抽样来筛选参与调查的候选人吗?答案是否定的,因为性别在这个调研的目标人群中发挥着显著的影响,不能进行随机抽样,否则抽样数据将“严重失真”,并不能反映真实的数据分布,此时应该性别进行分层抽样,增大男性在抽样中的比例。进行分层采样的前提是目标属性往往是类别化的离散值,对于那些连续的数值型属性,通常需要进行一下“预处理”:把连续的数值型数据转换为离散的类别型数据。原创 2022-12-26 17:16:02 · 920 阅读 · 0 评论 -
机器学习中的数据集切分
应用有监督的机器学习算法时,需要将数据集切分成训练数据集和测试数据集两部分。在《Handson ML》一书中,使用了numpy.random.permutation,对数据集进行了切分。其思路是:利用permutation生成shuffle后记录索引(打乱顺序的索引集合),然后按比例原创 2022-12-26 11:43:54 · 1627 阅读 · 0 评论 -
算法效果评估:均方根误差(RMSE)/ 标准误差
评估算法的效果常见的算法效果评估函数是均方根误差(Root Mean Square Error),在了解这个均方根误差前,需要先熟悉一下其他几个基本方差:方差(Variance)方差用于衡量随机变量或一组数据的离散程度。对于方差我们可以用一种朴素的方式理解和记忆:它不是平方的差,而是差的平方求和之后再取平均值,对于计算方差取差的平方这一点,可以很形象地理解为以两点间的直线距离为边得到一个正方型,以面积(平方)的形式度量离散程度,显然面积越大,意味着离散程度越高。总体方差总体方差,也叫做有偏估计,其原创 2021-11-07 08:20:19 · 52967 阅读 · 2 评论