
零基础学机器学习理论与案例实战
文章平均质量分 95
本教程将帮助您了解机器学习、其工作原理以及如何使用它。本教程包含以下内容:监督和无监督学习、线性回归、随机森林算法、朴素贝叶斯分类器、K-means聚类算法等基础学习基础知识,以及各种实战案例。
优惠券已抵扣
余额抵扣
还需支付
¥29.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
YOLO大师
这个作者很懒,什么都没留下…
展开
-
20 个 Pandas 函数,用于 80% 的数据科学任务
Pandas 是一个广受欢迎的 Python 数据分析库,它提供了高性能、易用的数据结构和数据分析工具。特别是对于处理和分析输入数据表格,Pandas 是非常有用的。这个库主要用于数据清洗和准备,它可以极大地简化数据预处理、分析和可视化的过程。原创 2024-05-18 23:43:49 · 170 阅读 · 0 评论 -
基于原生Python实现决策树(Decision Tree)
决策树是一种基本的分类与回归方法,它模拟了人类决策过程中的决策树状结构,以树状图的形式对数据进行分类或回归。决策树由节点(node)和边(edge)组成,主要包括根节点(root node)、内部节点(internal nodes)和叶节点(leaf nodes)。# 初始化决策节点self.feature_index = feature_index # 特征索引self.threshold = threshold # 分割阈值self.left_child = left_child # 左子节点。原创 2024-04-07 14:34:39 · 118 阅读 · 0 评论 -
使用 Titanic 数据集逐步构建机器学习模型:从分析数据到创建模型到调优
泰坦尼克号的沉没是近代史上最不幸的事件之一。1912 年 4 月 15 日,泰坦尼克号在北大西洋沉没,当时撞上了冰山。机上有2,224名乘客,这场灾难导致1,500多人死亡。本文中,我们利用这场灾难的生存数据创建了一个机器学习模型。。在本文中,我将使用数据可视化来分析对存活率很重要的因素。经过一些特征工程后,我将构建一个机器学习模型来预测幸存的乘客。在这篇文章中,我从各个方面分析了数据集,然后创建了一个机器学习模型。首先,使用图形对数据进行详细探索以理解它。然后,逐步清理数据并进行工程设计。原创 2023-12-17 20:45:14 · 876 阅读 · 0 评论 -
【零基础学机器学习 17】机器学习中的主成分分析(PCA):完全指南
主成分分析(PCA)是一种流行的无监督学习技术,用于降低数据的维度。它在提高可解释性的同时,尽量减少信息损失。PCA有助于在数据集中找到最重要的特征,并简化数据以便于在二维和三维中绘制。PCA能够找到变量的一系列线性组合。假设我们有一个包含人口年龄和收入的数据集。这两个变量可能存在一定程度的相关性,例如年龄较大的人可能收入较高。在这种情况下,我们可以使用PCA来提取一个新的变量(主成分),它能够捕捉年龄和收入之间的主要变化。原创 2023-10-09 22:44:26 · 344 阅读 · 0 评论 -
【零基础学机器学习 16】机器学习中的主成分分析(PCA): 数学基础(协方差矩阵)
内积是向量空间中的一种运算,它将两个向量映射到一个实数(或复数),表示它们之间的相似度或夹角关系内积的计算公式为:A⋅B=∣A∣∣B∣cos(a)A\cdot B=|A||B|cos(a)A⋅B=∣A∣∣B∣cos(a)两个维数相同的向量的内积计算公式还可以被定义为:(a1,a2,⋯ ,an)T⋅(b1,b2,⋯ ,bn)T=a1b1+a2b2+⋯+anbn\left(a_1,a_2,\cdots,a_n\right)^{\mathsf{T}}\cdot\left(b_1,b_2,\cdots原创 2023-10-09 21:08:04 · 117 阅读 · 0 评论 -
【零基础学机器学习 15】 K-均值聚类( K-means)算法:类型、工作原理及代码实战
K-Means聚类算法是一种无监督学习算法。与有监督学习不同,此聚类没有标记数据。K-Means聚类算法用于将数据集分成K个不同的组或簇。该算法基于数据点之间的相似性将它们分组,并将它们分配到最近的簇中。该算法使用迭代方法来找到最佳的簇中心,以最小化每个簇内数据点与其簇中心之间的距离平方和。在k-means算法中,簇中心又被成为质心,,它是由该簇中所有数据点的坐标平均值计算而来的。在每次迭代中,k-means算法会重新计算每个簇的质心,并将每个数据点分配到与其最近的质心所在的簇中。原创 2023-09-24 16:17:53 · 122 阅读 · 0 评论 -
【零基础学机器学习 14】 K最近邻(K-Nearest Neighbors,KNN) 最佳指南以及代码实战
KNN算法(K-Nearest Neighbor Algorithm)是一种基于实例的机器学习算法,用于分类和回归问题。它的核心思想是通过计算一个样本与训练集中所有样本的距离,找出距离最近的K个样本,然后根据这K个样本的标签进行分类或回归预测。KNN算法的步骤如下:计算测试样本与训练集中所有样本的距离(通常使用欧几里得距离或曼哈顿距离等)。根据距离排序,选取距离最近的K个样本。根据K个样本的标签,进行分类或回归预测。KNN算法的优点是简单易懂,适用于多分类和回归问题,并且对于离群点的影响较小。原创 2023-09-17 22:17:47 · 253 阅读 · 0 评论 -
【零基础学机器学习 1】什么是机器学习?
机器学习是人工智能的一种应用,它使系统能够自主学习并从经验中提高,而不需要外部编程。如果你的电脑具有机器学习功能,它可能能够为你玩游戏中的困难部分或解决复杂的数学方程。原创 2023-05-10 20:45:36 · 7248 阅读 · 30 评论 -
【零基础学机器学习 2】 机器学习的实操步骤-以及在Python中实现机器学习模型
机器学习是一种人工智能的分支,它使用算法和统计模型来让计算机系统自动地从数据中学习,并根据学习结果做出预测或决策。机器学习的目标是让计算机系统通过学习数据中的模式和规律,从而能够自主地进行分类、预测、识别、优化等任务,并不断地改进自己的性能。机器学习应用广泛,包括自然语言处理、计算机视觉、语音识别、推荐系统、金融风险管理等领域。将智能赋予机器的任务似乎是艰巨而不可能的。但实际上,它非常容易。它可以分为7个主要步骤。原创 2023-05-16 09:45:03 · 6926 阅读 · 24 评论 -
【零基础学机器学习 3】机器学习类型简介:监督学习 - 无监督学习 - 强化学习
监督学习是一种使用标记数据来训练机器学习模型的机器学习类型。在标记数据中,输出已经是已知的。模型只需要将输入映射到相应的输出。例如,监督学习的一个例子是训练一个识别动物图像的系统。下面附上我们训练的识别猫图片的模型。无监督学习是一种使用未标记数据来训练机器的机器学习类型。未标记数据没有固定的输出变量。模型从数据中学习,发现数据中的模式和特征,并返回输出。下面是一个使用车辆图像来分类它是公共汽车还是卡车的无监督学习技术示例。原创 2023-05-17 21:16:12 · 6970 阅读 · 36 评论 -
【零基础学机器学习 4】机器学习中的回归-线性回归
线性回归是一种统计模型,用于通过检查两个因素来预测自变量和因变量之间的关系:1. 哪些变量特别是结果变量的重要预测因素?2. 回归线在预测最高可能准确性方面有多重要?为了理解“因变量”和“自变量”这两个术语,让我们以一个现实世界的例子来说明。假设我们想根据降雨量来预测未来的农作物产量,使用的是有关过去农作物和降雨量的数据。原创 2023-05-22 23:04:52 · 552 阅读 · 13 评论 -
【零基础学机器学习 5】机器学习中的分类:什么是分类以及分类模型
分类被定义为将对象和思想识别、理解和分组到预设类别(也称为“子群体”)的过程。借助这些预分类的训练数据集,机器学习程序中的分类利用各种算法将未来的数据集分类到相应和相关的类别中。原创 2023-06-11 22:54:06 · 695 阅读 · 0 评论 -
【零基础学机器学习 6】 机器学习中的分类算法-逻辑回归(上)概念指南
机器学习中的逻辑回归是一种用于分类问题的算法,它可以将输入数据映射到二元输出(0或1),并用概率来表示分类结果。逻辑回归的核心思想是利用sigmoid函数将线性回归的结果映射到0和1之间的概率值,然后根据阈值将概率值转换为二元输出。hθxgθTxhθxgθTx其中,hθxhθx是预测值,gzg(z)gzgz11e−zgz1e−z1θ\thetaθ是模型的参数向量,xxx是输入特征向量。在二分类问题中,yyy。原创 2023-06-21 16:28:37 · 280 阅读 · 0 评论 -
【零基础学机器学习 7】逻辑回归(下)- 使用 Python(scikit-learn)实现预测数字标签
在上文中,我们学习了讲逻辑回归的基本概念,但是概念始终是抽象的,本文用一个简单的例子,来实现一个逻辑回归。同时也让你了解什么是机器学习的实操。对于新手来说,下面出现的代码可能是无法理解的。但是没关系,请你硬着头皮看下去。主要是了解思路以及操作。原创 2023-07-24 23:05:26 · 534 阅读 · 0 评论 -
【零基础学机器学习 8】机器学习中的线性回归与逻辑回归区别比较
回归分析是一种统计方法,它允许你根据独立输入变量的值来预测一个依赖输出变量。回归分析是一种监督学习的类型,它找到输入和输出值之间的关系,并根据给定的输入数据来预测输出值。它通过找到输入和输出值之间的数学线性关系来实现。它可以有多个输入,但只有一个输出。你可以通过下面的图表更好地理解回归分析。使用给定的输入变量或食材,你可以得到一个新的输出或菜肴。在这里,回归分析就像一份食谱,用于找到这些变量之间的关系以及它们之间的关系。分类是一种将给定的输入分为一些预定义类别的方法。原创 2023-06-21 16:34:24 · 356 阅读 · 0 评论 -
【零基础学机器学习 9】机器学习中的决策树最佳指南以及代码实战
决策树是一种基于树形结构的监督学习方法,用于预测目标变量的输出。监督学习使用带有已知输出变量的标记数据,借助回归和分类算法进行预测。监督学习算法作为训练具有定义输出变量的模型的监督者。它使用各种数据特征学习简单的决策规则。Python中的决策树可用于解决分类和回归问题,它们经常用于确定赔率。原创 2023-06-30 11:28:32 · 382 阅读 · 1 评论 -
【零基础学机器学习 10】随机森林算法最佳指南以及代码实战
随机森林算法是一种监督学习算法,广泛应用于机器学习中的分类和回归问题。我们知道,森林由许多树组成,树越多,它就越强大。同样,随机森林算法中树的数量越多,它的准确性和问题解决能力就越高。原创 2023-07-10 17:08:28 · 2028 阅读 · 0 评论 -
【零基础学机器学习 11】 fit、transform、fit_transform 最佳指南与代码实战
sklearn中的StandardScaler是一个用于数据标准化的类。标准化是指将数据按照特定的方式进行缩放,使得数据的均值为0,方差为1。StandardScaler通过计算每个特征的均值和标准差,然后对数据进行中心化和缩放,从而实现标准化的效果。原创 2023-07-10 16:33:42 · 438 阅读 · 0 评论 -
【零基础学机器学习 12】朴素贝叶斯算法最佳指南
朴素贝叶斯是一种基于贝叶斯定理的分类算法,它基于特征之间的独立性假设,即假设所有特征都是独立的,这使得算法的实现非常简单。工作日的概率= 11/30或0.37这意味着在整个周末、工作日和假期进入商店的30个人中,有11个在工作日购买。不购买的概率= 6/30或0.2。无论一周的哪一天,都有20%的可能性他们不会购买。最后,我们看一下当没有购买时B(即工作日)的概率。没有购买的工作日概率= 0.18或18%。由于(无|工作日)的概率小于0.5,客户很可能在工作日购买产品。原创 2023-07-24 23:18:42 · 808 阅读 · 6 评论 -
【零基础学机器学习 13】 混淆矩阵 最佳指南以及代码实战
在机器学习中,分类用于将数据划分为不同的类别。但在清理、预处理数据并训练我们的模型之后,我们如何知道分类模型的性能是否良好呢?这就是混淆矩阵的作用。原创 2023-09-06 13:38:59 · 5337 阅读 · 0 评论