
机器学习
文章平均质量分 94
随着现在以ChatGPT为代表的大模型发展,人工智能、机器学习、大模型 这些词逐渐火热起来了,所以是时候了解一下这些东西了,可能有的人会说不会太晚了吗,其实不晚,因为我们从来都不是技术的创造者,只是技术的使用者而已,在一定程度上来说,及时的学会使用,对普通人来说就足以过上不错的日子。
不二人生
刀光剑影江湖情,摧枯拉朽浪滔滔。功名利禄拂衣去,山高水远路迢迢。一个上得了厅堂下得了厨房、左手写诗右手写词的男人
展开
-
机器学习 专栏
随着现在以ChatGPT为代表的大模型发展,人工智能、机器学习、大模型 这些词逐渐火热起来了,所以是时候了解一下这些东西了,可能有的人会说不会太晚了吗,其实不晚,因为我们从来都是技术的创造者,只是技术的使用者而已,在一定程度上来说,及时的学会使用,对普通人来说就足以过上不错的日子。但是伴随着老的生产力的落幕,必然有新的生产力出现,否则整个社会的发展就陷入了停滞,其实我们可以看到现在的AI 发展的这么快,每一轮的技术发展都会有一二十年的生命周期,我们只能说传统互联网走到了夕阳西下的时候。原创 2024-03-30 13:11:30 · 170885 阅读 · 0 评论 -
机器学习概论—增强学习
强化学习的特点在于智能体在学习过程中不会接收到明确的正确答案或标签,而是通过尝试和错误来获取知识。强化学习在许多领域都有广泛的应用,包括游戏领域(如围棋、星际争霸等)、机器人控制、自动驾驶、资源管理、金融交易等。强化学习的一个重要特点是其能够处理具有延迟奖励和不确定性的环境,并且能够在未知的环境中进行学习和决策。总的来说,强化学习是一种强大的机器学习方法,通过与环境的交互学习如何做出决策,其在解决复杂的问题和优化目标上有着广泛的应用前景。原创 2024-03-23 09:43:29 · 43530 阅读 · 1 评论 -
机器学习流程—迁移学习 模型微调
迁移学习(Transfer Learning)是机器学习中一种重要的技术,它允许将在一个任务上训练得到的模型知识迁移到另一个相关但不同的任务上,从而提高模型在新任务上的学习效率和性能。迁移学习在计算机视觉、自然语言处理等领域被广泛采用。典型的做法是先在大规模数据集上预训练一个通用的基础模型,然后在目标任务数据上进行微调(fine-tuning),以获得针对该任务的专用模型。原创 2024-03-22 08:49:28 · 43681 阅读 · 0 评论 -
机器学习流程—数据分布不均处理
n_neighbors_ver3参数确定要为每个少数示例选择的示例数量,尽管通过sample_strategy设置的所需平衡比率,将对此进行过滤,从而实现所需的平衡。我们可以看到,算法的重点是,沿着两个类之间的决策边界的少数类中的那些示例,特别是围绕少数类示例的那些多数示例。首先运行示例,以总结类的分布,显示出约1:100的类分布,其中约10,000个实例的类为0,而100个实例的类为1。不出所料,我们可以看到每个在少数类中的示例,这些示例都在与多数类重叠的区域中,且最多有3个来自多数类的邻居。原创 2024-03-22 08:48:32 · 43363 阅读 · 1 评论 -
机器学习流程—特征工程
基本上,所有机器学习算法都是将一些输入数据转化为输出。这些输入数据包括若干特征,通常是以由列组成的表格形式出现。而算法往往要求输入具有某些特性的特征才能正常工作。因此,出现了对特征工程的需求。特征工程至少有两个目标,根据《福布斯》的一项调查,数据科学家把 80% 左右的时间花在数据收集、清晰以及预处理等数据准备上。这点显示了特征工程在数据科学中的重要性。因此有必要整理一下特征工程的主要技术。本篇通过 Pandas 和 Numpy 等库来实际操练。原创 2024-03-21 08:59:32 · 43161 阅读 · 0 评论 -
机器学习流程—AutoML
今天我将用一个简单的示例来全面讲解 AutoML 工具:Auto-Sklearn,相信你会爱上这个这么省心的工具。文中涉及的数据、代码文末将给出,方便实战练习熟悉机器学习的人都知道 scikit-learn,这是著名的 python 包,由不同的分类和回归算法组成,用于构建机器学习模型。Auto-Sklearn 是一个基于 Python 的开源工具包,用于执行 AutoML,它采用著名的 Scikit-Learn 机器学习包进行数据处理和机器学习算法。原创 2024-03-21 08:57:35 · 43231 阅读 · 0 评论 -
机器学习流程—模型部署发布
通常,我们会把机器学习模型部署到生产系统(Web 端或移动端)中投入使用。部署机器学习模型有多种方式,比如开发人员重新编写模型、通过 Web 应用把模型部署到 Web 服务器、通过 Tensorflow Lite 等工具部署到移动端等等。原创 2024-03-20 08:46:54 · 42559 阅读 · 0 评论 -
机器学习流程—模型调参
在机器学习的背景下,超参数是在模型训练过程开始之前设置的配置变量。他们控制学习过程本身,而不是从数据中学习。超参数通常用于调整模型的性能,它们可以对模型的准确性、泛化性和其他指标产生重大影响。原创 2024-03-20 08:45:32 · 42507 阅读 · 0 评论 -
机器学习模型—主成分分析 降维魔法
主成分分析(PCA) 技术由数学家于 1901 年提出它的工作前提是,当高维空间中的数据映射到低维空间中的数据时,低维空间中的数据的方差应该是最大的。**主成分分析 (PCA)**是一种统计过程,它使用正交变换将一组相关变量转换为一组不相关变量。PCA 是探索性数据分析和预测模型机器学习中使用最广泛的工具。而且,主成分分析 (PCA) 是一种无监督学习算法技术,用于检查一组变量之间的相互关系。它也称为一般因素分析( general factor analysis),其中回归确定最佳拟合线。原创 2024-03-19 08:54:01 · 42048 阅读 · 0 评论 -
机器学习流程—数据收集
数据可以采用各种形式,例如数值、分类或时间序列数据,并且可以来自各种来源,例如数据库、电子表格或 API。机器学习算法使用数据来学习输入变量和目标输出之间的模式和关系,然后可用于预测或分类任务。标记数据未标记数据标记数据包含模型尝试预测的标签或目标变量,而未标记数据不包含标签或目标变量。机器学习中使用的数据通常是数字或分类的。数值数据包括可以排序和测量的值,例如年龄或收入。分类数据包括代表类别的值,例如性别或水果类型。数据可以分为训练集和测试集。训练集用于训练模型,测试集用于评估模型的性能。原创 2024-03-19 08:52:32 · 41972 阅读 · 0 评论 -
机器学习模型—层次聚类
层次聚类是无监督学习中重要的聚类技术。通过计算簇间距离,将相似的对象逐步合并,可以很好地揭示数据的层次结构。不同的距离度量方法各有利弊,在实际应用中需要根据数据分布特征合理选择。未来,层次聚类在基因组学、社交网络、推荐系统等领域将有更广泛的应用前景。原创 2024-03-18 08:58:24 · 41825 阅读 · 0 评论 -
机器学习模型—K means
K 均值聚类是一种强大的无监督机器学习算法,用于对未标记的数据集进行分组。其目标是将数据划分为簇,使相似的数据点属于同一组。该算法初始化簇质心,并迭代地将数据点分配给最近的质心,根据每个簇中点的平均值更新质心。原创 2024-03-18 08:57:43 · 42150 阅读 · 0 评论 -
机器学习模型—高斯过程(GPC)
在实际应用中,可以使用高斯过程分类模型来对数据进行分类,并利用已知数据来估计模型的参数(如均值函数和协方差函数的参数)。通过对数据集的建模,我们可以得到一个分类器,可以对新的输入进行分类,并估计其属于每个类别的概率。原创 2024-03-17 08:30:30 · 41752 阅读 · 0 评论 -
机器学习模型—朴素贝叶斯
朴素贝叶斯是一系列基于贝叶斯定理的概率机器学习算法,假设特征之间独立。朴素贝叶斯分类器假设类中某个特征的存在与任何其他特征都不相关。朴素贝叶斯是一种用于二元和多类分类问题的分类算法。对于数据特征相对独立且训练数据有限的问题,朴素贝叶斯是一个不错的选择。对于需要考虑计算成本的问题来说,它也是一个不错的选择。朴素贝叶斯是一种流行的算法,因为它简单、高效且有效。它通常用作基线分类器,用于与其他更复杂的算法进行比较。原创 2024-03-17 08:27:05 · 41218 阅读 · 0 评论 -
机器学习模型—XGBoost
这些创新使得XGBoost在大数据、高维度、高准确率等挑战下仍可保持高效。许多知名互联网公司将XGBoost作为推荐系统、在线广告等重要模块的核心算法。在诸如Kaggle等数据挖掘比赛中,XGBoost模型也频频夺冠。总的来说,XGBoost可谓集成了梯度提升理论模型的精华,又在工程实现上极尽优化,实现了性能和效率的完美融合,成为GBDT发展的真正里程碑之作。无论是数据科学家还是机器学习工程师,都有必要深入掌握这一强大的算法框架。原创 2024-03-17 08:26:06 · 42056 阅读 · 0 评论 -
机器学习模型—LightGBM
LightGBM是一款先进的Gradient Boosting框架,通过一系列前沿的算法优化和工程实践,使得它在保持高精度的同时,更加注重计算效率、内存利用和大数据场景的适应性。未来,LightGBM必将为机器学习的发展注入新的动力。原创 2024-03-16 10:28:20 · 43316 阅读 · 0 评论 -
机器学习模型—CatBoost
CatBoost或 Categorical Boosting 是 Yandex 开发的开源 boosting 库。它设计用于解决具有大量独立特征的回归和分类等问题。Catboost 是梯度增强的一种变体,可以处理分类特征和数值特征。它不需要任何特征编码技术(例如One-Hot Encoder或Label Encoder)来将分类特征转换为数值特征。它还使用一种称为对称加权分位数草图(SWQS)的算法,该算法自动处理数据集中的缺失值,以减少过度拟合并提高数据集的整体性能。原创 2024-03-16 10:27:35 · 42842 阅读 · 0 评论 -
机器学习模型—Gradient Boosting
现代Gradient Boosting框架包括GBDT(Gradient Boosting Decision Tree)和XGBoost等。GBDT使用CART决策树作为基函数;而XGBoost在此基础上做了多项改进,包括引入二阶近似、并行计算优化、自动化特征捕捉等。此外,XGBoost还支持各种正则化策略,具有很高的效率和性能。总的来说,Gradient Boosting算法的优势在于可解释性强、抗噪性好、易并行化等,缺点则是可能过拟合、训练可解释性差等。它在回归、分类、排序等多个领域都有广泛的应用。原创 2024-03-15 08:29:13 · 42934 阅读 · 0 评论 -
机器学习模型—AdaBoost
AdaBoost 是 Adaptive Boosting 的缩写,是一种用于机器学习中解决分类和回归问题的集成学习。AdaBoost 背后的主要思想是在训练数据集上迭代训练弱分类器,每个连续的分类器为错误分类的数据点赋予更多权重。最终的AdaBoost模型是通过将所有已用于训练的弱分类器与根据模型的准确率赋予模型的权重相结合来确定的。具有最高准确度的弱模型被赋予最高的权重,而具有最低准确度的模型被赋予较低的权重。原创 2024-03-15 08:28:17 · 42960 阅读 · 0 评论 -
机器学习模型—随机森林
机器学习中的随机森林回归是一种集成技术,能够使用多个决策树的技术,通常称为装bagging,用来执行回归和分类任务。这背后的基本思想是结合多个决策树来确定最终输出,而不是依赖于单个决策树。随机森林有多个决策树作为基础学习模型。我们从数据集中随机执行行采样和特征采样,形成每个模型的样本数据集。这部分称为Bootstrap。原创 2024-03-14 08:40:32 · 42873 阅读 · 0 评论 -
机器学习模型—集成学习
scikit-learn为集成方法提供了多个模块/方法。请注意,一种方法的准确性并不表明一种方法优于另一种方法。本文旨在简要介绍集成方法,而不是对它们进行比较。集成学习模型是将多种同质或者异质的模型集成组合在一起,来形成更优的模型。而在这个过程的目标就是,减少机器学习模型的方差和偏差,找到机器学习模型在欠拟合和过拟合之间的最佳平衡点降低偏差我们可以用 Boosting 方法,把梯度下降的思想应用在机器学习算法的优化上,使弱模型对数据的拟合逐渐增强。原创 2024-03-14 08:39:11 · 43140 阅读 · 0 评论 -
机器学习模型—分类回归树(CART)
CART 是一种决策树算法,可用于分类和回归任务。它的工作原理是根据某些标准将数据递归地划分为越来越小的子集。目标是创建一个可以准确预测新数据点的目标变量的树结构。回归树是一种决策树,用于预测连续目标变量。它的工作原理是根据特定标准将数据划分为越来越小的子集,然后预测每个子集中目标变量的平均值。回归树用于预测连续目标变量,而分类树用于预测分类目标变量。回归树预测每个子集中目标变量的平均值,而分类树预测每个数据点最可能的类别。CART是决策树算法的具体实现。原创 2024-03-13 10:36:49 · 43077 阅读 · 0 评论 -
机器学习模型—决策树
线性回归模型过拟合我们可以通过加入正则项去解决决策树模型我们可以通过枝剪的方式让树的深度不要太深,从而提高模型的泛化能力。原创 2024-03-13 10:35:54 · 42929 阅读 · 0 评论 -
机器学习模型—支持向量机 (SVM)
支持向量机 (SVM) 是一种强大的机器学习算法,用于线性或非线性分类、回归,甚至异常值检测任务。SVM 可用于各种任务,例如文本分类、图像分类、垃圾邮件检测、笔迹识别、基因表达分析、人脸检测和异常检测。SVM 在各种应用中具有适应性和高效性,因为它们可以管理高维数据和非线性关系。当我们试图找到目标特征中可用的不同类之间的最大分离超平面时,SVM 算法非常有效。原创 2024-03-12 08:54:00 · 43095 阅读 · 0 评论 -
机器学习模型—K最近邻(KNN)
KNN 是机器学习中最基本但最重要的分类算法之一。它属于监督学习领域,在模式识别、数据挖掘和入侵检测中有广泛的应用。它在现实生活中被广泛使用,因为它是非参数的,这意味着它不会对数据的分布做出任何基本假设(与 GMM 等其他算法不同,GMM 假设给定数据的高斯分布)。我们获得了一些先验数据(也称为训练数据),它将坐标分类为由属性标识的组。作为示例,请考虑下表包含两个特征的数据点:现在,给定另一组数据点(也称为测试数据),通过分析训练集将这些点分配到一组。请注意,未分类的点标记为“白色”。原创 2024-03-12 08:48:25 · 42897 阅读 · 0 评论 -
机器学习概论—正则化
过度拟合是机器学习模型受限于训练集并且无法在未见过的数据上表现良好时发生的一种现象。此时我们的模型也会学习训练数据中的噪声。当我们的模型记住训练数据而不是学习其中的模式时,就会出现这种情况。另一方面,**欠拟合是指我们的模型甚至无法学习数据集中可用的基本模式。**在欠拟合的情况下,模型即使在训练数据上也无法表现良好,因此我们不能期望它在验证数据上表现良好。当我们增加模型的复杂性或向特征集中添加更多特征时,就会出现这种情况偏差。原创 2024-03-11 16:13:07 · 42712 阅读 · 0 评论 -
机器学习模型—逻辑回归
逻辑回归用于二元分类,其中我们使用sigmoid 函数,它将输入作为自变量并产生 0 到 1 之间的概率值。例如,我们有两个类 0 类和 1 类,如果输入的逻辑函数值大于 0.5(阈值),那么它属于 1 类,它属于 0 类。它被称为回归,因为它是线性回归的扩展,但主要用于分类问题。逻辑回归是一种统计方法,用于开发具有二元因变量(即二元)的机器学习模型。逻辑回归是一种统计技术,用于描述数据以及一个因变量与一个或多个自变量之间的关系。逻辑回归分为三种类型:二元回归、多项回归和序数回归。原创 2024-03-11 12:57:51 · 42574 阅读 · 0 评论 -
机器学习模型—线性回归
这里我们主要介绍了简单线性回归,以及多元线性回归,以及多项式回归,其实我们可以看到多项式回归和我们之前数据预处理环节讲的特征转换有点像,其实本质上就是根据数据探索,我们发现数据可能不是线性关系,而做出的尝试。原创 2024-03-07 16:14:52 · 42462 阅读 · 0 评论 -
机器学习流程—数据预处理 缩放和转换
相信机器学习的从业者,一定听到到过“特征缩放”这个术语,它被认为是数据处理周期中不可跳过的部分,因进行相应的操作们可以实现 ML 算法的稳定和快速训练。在本文中,我们将了解在实践中用于执行特征缩放的不同技术。不同评价指标往往具有不同的和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据归一化/标准化处理,以解决数据指标之间的可比性。原创 2024-03-07 11:11:15 · 43436 阅读 · 0 评论 -
机器学习流程—数据预处理 Encoding
我们在机器学习项目开发过程中遇到的大多数现实数据集都具有混合数据类型的列。这些数据集由分类列和数字列组成。然而,各种机器学习模型不适用于分类数据,为了使这些数据适合机器学习模型,需要将其转换为数值数据。例如,假设数据集有一个Gender列,其中包含Male 和Female等分类元素。这些标签没有特定的偏好顺序,而且由于数据是字符串标签,机器学习模型会误解其中存在某种层次结构。解决此问题的一种方法是标签编码,我们将为这些标签分配一个数值,例如将Male和Female映射到0和1。原创 2024-03-05 08:59:33 · 43550 阅读 · 0 评论 -
机器学习流程—数据预处理 清洗
这里我们需要说明一下,虽然这里我们讲的是数据预处理,但是我们这里为了更加充分的理解我们后面的数据预处理,这里我们说明一下我们要解决什么样的问题,也就是定义问题。itanic数据集作为kaggle比赛中的经典数据集,今天我们使用的数据也是这个数据集,这个数据集描述的主要是泰坦尼克号邮轮上乘客的数据,我们要做的事情就是根据乘客的数据预测乘客在泰坦尼克号沉没的时候时候可以活下来。原创 2024-03-05 08:55:31 · 43628 阅读 · 0 评论 -
机器学习概论—如何学习机器学习
机器学习也一样,我们可以先尝试着解决问题,再回国头来研究底层的算法,数学知识,总之路上的风景一定是在路上的人才能看到的,这跟现在的一个 现状很像,之前想出国去玩,但是不想报团,就想找两个搭子一起,几天了都没找到,后来一个人出发了,结果发现路上全是搭子,印尼有搭子,马来有搭子,泰国也有搭子,所以找搭子最好的方式是在路上,而不是在家里,最好的搭子在路上!数学和编程语言是机器学习的基础,但是这并不意味着你必须先去啃那些枯燥的数学知识,这也不是我们提倡的,我们可以先动手尝试,再回过头来了解哪些基础的知识。原创 2024-02-29 16:30:42 · 43474 阅读 · 0 评论 -
机器学习概论—什么是机器学习
你背单词时阿拉斯加的鳕鱼正跃出水面你算数学时太平洋的海鸥振翅掠过城市上空你晚自习时北极的夜空散漫了五彩斑斓你熬夜加班时地中海的茶花正破土而生你在和朋友碰杯叙情时飞往伦敦的最后一班航班正在跑道滑行那些你感觉从来不会看到的景色那些你觉得终身不会遇到的人那些你感叹不会再发生的爱情正在这里一步步向你走来。原创 2024-02-29 15:17:43 · 43386 阅读 · 0 评论