
机器学习
文章平均质量分 73
**之火
希望一直深耕钱端领域,但也喜欢涉猎其他计算机编程领域,钱端幸福三要素:悠闲,寡欲,融入自然。
展开
-
(十二)机器学习 - 训练/测试
机器学习中的“训练/测试”是指使用机器学习算法从数据中学习模式的过程,并将学到的模型用于预测或分类新数据。这个过程通常分为两个主要阶段:训练阶段和测试阶段。原创 2024-12-14 13:22:36 · 937 阅读 · 1 评论 -
(十一)机器学习 - 缩放
在机器学习中,“缩放”(Scaling)是指对数据集中的特征(或变量)进行变换,以使它们处于相同的尺度或范围内。缩放是数据预处理的一个重要步骤,对于提高机器学习模型的性能和稳定性至关重要。原创 2024-12-13 14:28:17 · 636 阅读 · 0 评论 -
(十)机器学习 - 多元回归
多元回归(Multiple Regression)是一种统计学方法,用于建立一个因变量(响应变量)与多个自变量(解释变量)之间的关系。多元回归的目的是通过最小化预测误差来找到最佳的拟合模型,从而可以用来预测因变量的值或理解自变量与因变量之间的关系。多元回归的基本形式可以表示为:例子:一组数据集,其中包含了一些有关汽车的信息。可以根据发动机排量的大小预测汽车的二氧化碳排放量,但是通过多元回归,我们可以引入更多变量,例如汽车的重量,以使预测更加准确。在 Python 中,我们拥有可以完成这项工作的模块。原创 2024-12-13 09:42:21 · 928 阅读 · 0 评论 -
(九)机器学习 - 多项式回归
多项式回归(Polynomial Regression)是一种回归分析方法,它将自变量 xx 和因变量 yy 之间的关系建模为 nn 次多项式。多项式回归的目的是找到一个 nn 次多项式函数,使得这个函数能够最好地拟合给定的数据点。多项式回归可以看作是线性回归的扩展,因为线性回归是 n=1n=1 时的特殊情况。当数据点之间的关系不是线性的,而是曲线时,多项式回归可以提供更好的拟合。原创 2024-12-13 09:19:07 · 581 阅读 · 0 评论 -
(八)机器学习 - 线性回归
线性回归(Linear Regression)是一种统计学方法,用于建立一个或多个自变量(解释变量)与因变量(响应变量)之间的线性关系。线性回归的目的是通过最小化预测误差来找到最佳的线性拟合模型,从而可以用来预测因变量的值或理解自变量与因变量之间的关系。线性回归使用数据点之间的关系在所有数据点之间画一条直线。这条线可以用来预测未来的值。线性回归的参数估计通常使用最小二乘法(Least Squares Method),该方法通过最小化误差项的平方和来找到最佳的回归系数。原创 2024-12-12 10:23:12 · 1046 阅读 · 0 评论 -
(七)机器学习 - 散点图
散点图(Scatter Plot)是一种用于展示两个变量之间关系的图表类型。它通过在二维平面上绘制点来表示数据的分布情况,每个点的横坐标(x轴)和纵坐标(y轴)分别对应数据集中的两个变量的值。散点图的主要目的是观察和分析两个变量之间是否存在某种相关性,例如正相关、负相关或无相关。:每个数据点在图表上的位置由其对应的两个变量值决定。:通过观察数据点的分布模式,可以判断两个变量之间是否存在相关性。如果数据点大致沿着一条直线分布,这可能表明两个变量之间存在线性关系。原创 2024-12-12 09:13:29 · 729 阅读 · 0 评论 -
(六)机器学习 - 正态数据分布
正态数据分布,也称为高斯分布(Gaussian distribution),是一种在统计学中非常重要的概率分布。它描述了自然和社会科学中许多现象的分布情况,如人的身高、体重、智商等。正态分布的图形特征是中间高、两边低,呈对称的钟形曲线,因此也被称为钟形曲线(bell curve)。其中,μμ 是分布的均值(mean),σσ 是分布的标准差(standard deviation),σ2σ2 是分布的方差(variance)。:正态分布的图形关于均值 μμ 对称,即分布的左侧和右侧是镜像的。原创 2024-12-12 08:59:31 · 891 阅读 · 0 评论 -
(五)机器学习 - 数据分布
数组值是随机数,不会在您的计算机上显示完全相同的结果。第一栏代表数组中有多少 0 到 1 之间的值。第二栏代表有多少 1 到 2 之间的数值。我们使用上例中的数组绘制 5 条柱状图。原创 2024-12-11 09:50:54 · 1178 阅读 · 0 评论 -
(四)机器学习 - 百分位数
什么是 75 百分位数?答案是 43,这意味着 75% 的人是 43 岁或以下。例如:假设我们有一个数组,包含住在一条街上的人的年龄。使用Python NumPy。原创 2024-12-11 09:30:22 · 357 阅读 · 0 评论 -
(二)机器学习 - 平均中位数模式
在机器学习(和数学)中,通常存在三种我们感兴趣的值:均值(Mean)中值(Median)众数(Mode)原创 2024-12-10 21:36:27 · 556 阅读 · 0 评论 -
(一)机器学习 - 入门
数据集是一组数据的集合,这些数据可以是数值型、文本型、图形型等多种形式。数据集通常用于统计分析、机器学习、科学研究、商业智能等领域,以发现数据中的模式、趋势和关联性。原创 2024-12-10 21:21:40 · 765 阅读 · 0 评论