机器学习
文章平均质量分 96
全栈你个大西瓜
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
理解梯度下降、链式法则、梯度消失/爆炸
求导是微积分中的一个基本操作,用于计算函数在某一点上的瞬时变化率。这里列出一些常见的求导公式和规则,这些对于理解链式法则以及深度学习中的梯度计算非常重要。原创 2025-03-08 23:49:10 · 753 阅读 · 0 评论 -
机器学习怎么做特征工程
**特征工程** 就像厨师做菜前的食材处理:原始数据是“生肉和蔬菜”,特征工程是“切块、腌制、调料搭配”,目的是让机器学习模型(食客)更容易消化吸收,做出更好预测(品尝美味)。原创 2025-03-22 11:37:41 · 1191 阅读 · 0 评论 -
人工智能之不同数据类型及其特点梳理
在机器学习和深度学习领域,理解不同类型的数据及其特点对于选择合适的模型至关重要。下面介绍三种主要的数据类型——表格类数据、图像/视频类数据和时序类数据,并探讨它们的特点以及适用的算法和技术。通过具体的案例代码,更直观地体验每一个概念。原创 2025-02-24 20:23:48 · 956 阅读 · 0 评论 -
集成学习(二):从理论到实战(附代码)
集成学习提供了一种不同的视角:通过组合多个“弱”学习器来创建一个更强大的模型。思想革命:从"个人英雄"到"群体智慧"原创 2025-02-09 23:40:48 · 1237 阅读 · 0 评论 -
集成学习(一):从理论到实战(附代码)
集成学习提供了一种不同的视角:通过组合多个“弱”学习器来创建一个更强大的模型。思想革命:从"个人英雄"到"群体智慧"原创 2025-02-09 23:25:02 · 1522 阅读 · 0 评论 -
逻辑回归:从基础到实践(附代码)
逻辑回归是一种广泛应用于二分类问题的统计方法。尽管它的名字中包含“回归”,但实际上它主要用于处理分类问题,特别是二分类问题。本文将介绍如何使用PyTorch构建和训练一个逻辑回归模型,并探讨其背后的原理和技术细节。原创 2025-02-09 10:11:32 · 1133 阅读 · 0 评论 -
搞懂线性回归与梯度下降原理(附代码)
在线性模型中,自变量与因变量之间呈现一次方的关系,即因变量是自变量的线性组合。每个自变量x都乘以一个权重(weight w),然后加在一起,形成一个线性表达式。原创 2025-02-08 15:38:12 · 1072 阅读 · 0 评论 -
KMeans 聚类算法:从理论到实践(附代码)
聚类是一种无监督学习方法,用于将数据集中的样本按照相似性分成多个组或类别。与有监督学习不同的是,聚类算法处理的数据没有标签,仅根据特征进行分类。KMeans 是一种经典的无监督学习算法,擅长发现数据中潜在的自然分组。它通过迭代优化将数据划分为指定数量的簇(cluster),每个簇内的数据具有高相似性,不同簇间差异显著。原创 2025-02-07 22:53:17 · 1701 阅读 · 0 评论 -
线性模型:从原理到实践
线性模型是机器学习中最基础且重要的模型类型,其核心思想是通过特征的线性组合进行预测。主要分为线性回归和逻辑回归两大类型。原创 2025-02-07 18:41:26 · 1027 阅读 · 0 评论 -
理解数据标准化处理
在机器学习中,数据预处理是构建高效模型的关键步骤之一。其中,数据标准化尤为重要,因为它有助于加速模型收敛、提高数值稳定性,并确保不同特征对模型的影响一致。本文介绍数据标准化的概念、方法及其重要性,并通过Python代码示例展示如何实现数据标准化。原创 2025-02-07 11:24:58 · 1555 阅读 · 0 评论 -
机器学习简单案例:如何预测客户是否流失(附代码)
客户流失预测是客户关系管理中的核心问题之一。通过分析用户的历史行为数据(如购买记录、人口统计信息等),我们可以构建二分类模型预测客户是否会流失。本文将完整展示一个客户流失预测项目的技术流程,涵盖数据清洗、特征工程、模型训练与评估、特征重要性分析等关键步骤。原创 2025-02-07 00:13:10 · 1896 阅读 · 0 评论 -
决策树算法:从思想到实现(附代码)
熵是衡量系统混乱程度的一个指标。在信息论中,熵越高意味着系统中的信息越混杂,不确定性越大;反之,熵越低则表示信息更加有序,确定性更高。分类问题中的熵:类别越多且每个类别的概率越均等,熵就越大。回归问题中的熵:数据越分散,熵越大;数据越集中,熵越小。在没有训练时,模型处于最大混乱状态,即熵最高。随着训练过程的进行,模型逐渐学会如何区分不同的类别或预测连续值,导致熵逐渐降低。因此,模型训练的过程可以看作是系统熵不断下降的过程。好的算法应该能够让熵快速下降,从而更快地达到最优解。原创 2025-02-06 19:26:20 · 1151 阅读 · 0 评论 -
KNN算法:从思想到实现(附代码)
K最近邻算法KNN,是一种简单而有效的机器学习算法,用于分类和回归问题。其核心思想基于“近朱者赤,近墨者黑”,即通过测量不同特征值之间的距离来进行分类或预测数值。本文将详细介绍KNN的核心概念、使用方法及其在sklearn中的实现,并展示如何自己动手编写一个简单的KNN算法。原创 2025-02-06 00:07:37 · 1144 阅读 · 0 评论 -
机器学习算法大比武(附代码)
机器学习算法的“大比武”,通过不同的数据量来评估多种算法的表现,理解不同算法在处理不同类型和规模的数据时的性能差异,还能为实际应用中的算法选择提供依据。涉及算法逻辑回归、KNN回归、朴素贝叶斯、决策树、随机森林、LightGBM等原创 2025-02-10 22:04:10 · 881 阅读 · 0 评论 -
理解并解决欠拟合与过拟合
欠拟合和过拟合是机器学习模型训练过程中常见的两种问题,它们分别反映了模型在训练数据上的表现不足或过于依赖于训练数据,而无法很好地泛化到未见过的数据。原创 2025-02-11 00:27:31 · 1191 阅读 · 0 评论 -
机器学习案例:幸福感指数预测
本项目通过幸福感预测这一经典社会科学课题,使用问卷调查所得的公开数据,包括个体变量(性别、年龄、地域、职业、健康、婚姻与政治面貌等等)、家庭变量(父母、配偶、子女、家庭资本等等)、社会态度(公平、信用、公共服务等等)等134 个维度的信息来预测其对幸福感的影响。幸福感happiness 分为1 = 非常不幸福; 2 = 比较不幸福; 3 = 说不上幸福不幸福; 4 = 比较幸福; 5 = 非常幸福; 一共 5 个等级,需要根据其他特征来预测样本的happiness属于哪个分类。原创 2025-02-13 13:54:50 · 1411 阅读 · 0 评论 -
机器学习基本概念(附代码)
在机器学习领域,算法和模型是两个核心概念。算法是一种偏抽象的概念,它定义了计算机解决问题的步骤和流程。而模型则是更加具体的概念,通过代码实现特定算法来完成任务。数学上,一个简单的模型可以表示为 y=f(x),其中 x 是样本特征,y 是样本标签,模型的目标就是将输入特征 x 映射到输出标签 y。原创 2025-02-05 21:09:46 · 590 阅读 · 0 评论
分享