自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 终于把机器学习的特征选择搞懂了!!

大家好,我不是小upper,在机器学习中,特征选择是一个非常重要的步骤,它有助于提升模型的性能、减少计算成本、避免过拟合等。特征选择是机器学习中的一个重要环节,目的是通过选择最有用的特征(或者说属性)来提高模型的性能、减少计算复杂度,并防止过拟合。常见的特征选择方法可以分为以下几类:过滤法、包裹法和嵌入法。

2025-04-19 13:32:04 590

原创 OpenCV 中的分水岭算法的原理及其应用---图像分割的利器

图像分割作为计算机视觉的基石领域,历经数十年的演进与革新,从传统的图像处理方法到如今蓬勃发展的深度学习技术,始终推动着计算机视觉应用的边界拓展。本系列文章将通过三篇深度技术博客,分别对三种极具代表性的图像分割技术展开全面剖析 —— 基于 OpenCV 的经典分水岭算法、基于 PyTorch 框架实现的 UNet 深度学习模型,以及当下最先进(SOTA)的图像分割模型。在本篇文章中,我们将率先聚焦于分水岭算法,深入探讨其原理、OpenCV 实现细节,以及优化技巧。

2025-04-18 21:38:49 762

原创 最强的组合!!!随机森林+贝叶斯优化 !!

本文聚焦随机森林与贝叶斯优化的结合应用。在贝叶斯优化中,传统高斯过程处理复杂目标函数或大数据量时存在计算昂贵和不稳定问题,随机森林则凭借多棵决策树建模、能处理非线性函数及训练预测高效等优势成为更优代理模型。通过阐述贝叶斯优化以随机森林为代理模型的具体步骤,如训练模型、计算采集函数等迭代流程,展示其提升优化效率与精度的能力。还借助虚拟回归数据集开展实验,经数据生成、模型构建及调参等环节,结合多维度可视化手段,直观呈现优化过程与效果,凸显该组合在实际问题中的强大优化效能。

2025-04-18 13:40:27 934

原创 OverLoCK: 一种全新的基于动态卷积的视觉基础模型它来了!!

各位是否注意过人类观察世界的独特方式?顾名思义,就是当面对复杂场景时,我们往往先快速获得整体印象,再聚焦关键细节。。虽然这种机制在许多视觉任务中得到应用,但是如何利用这种机制来构建强大的 Vision Backbone 却尚未得到充分研究。

2025-04-17 21:55:32 912

原创 【机器学习案例】员工的离职预测:从数据探索到模型构建完整流程解析

使用的是从kaggle上找的公开的HR数据集,构建员工的离职预测模型。

2025-04-17 13:53:55 982 1

原创 一文读懂经典深度学习模型—CNN、RNN、LSTM、Transformer、ViT

RNN作为一种特殊的神经网络架构,也被称作序列模型或反馈神经网络。它主要用于处理具有序列特性的数据,如自然语言文本、时间序列数据等。在这类数据中,前后元素之间存在着紧密的关联关系。RNN 的独特之处在于其隐状态(hidden state)h 机制。随着序列数据按顺序逐个输入,隐状态 h 能够动态地捕捉序列中每个时刻数据的特征信息,并将之前时刻的信息融入到当前时刻。这种特性使得 RNN 不仅能处理当前输入,还能考虑到历史输入所携带的信息,从而对整个序列进行全局理解。

2025-04-16 23:11:14 632 1

原创 很透彻!50个Pytorch核心操作!!!

大家好,我不是小upper。今天,咱们一起来深入探讨 Pytorch。Pytorch 官网为https://pytorch.org ,这里能找到最新且最完整的语法解释,是学习和使用 Pytorch 的重要资源宝库。现阶段来说,无论是在职场拼搏的专业人士,还是在校潜心钻研的学生,依据 NeurIPS、ICML 等顶级学术会议论文的统计数据,超过 70% 的深度学习研究代码是基于 PyTorch 实现的,这一比例远超 TensorFlow 等其他框架。

2025-04-14 23:27:57 1329

原创 最强组合!!!逻辑回归+PCA

本文聚焦逻辑回归与 PCA 的组合应用。在高维数据处理中,PCA 可降维去噪、去除共线性,加快模型训练并提升泛化性能。逻辑回归则用于二分类,通过逻辑函数输出类别概率。两者结合时,先对数据预处理与中心化,再用 PCA 降维,最后在降维数据上训练逻辑回归模型。案例显示,该组合在降维后保留数据主要信息,逻辑回归能有效分类。此外,还可通过 ROC 曲线、精确率 - 召回率曲线评估模型性能。该组合优势互补,适用于多分类、回归等场景,其调参思路对其他算法也有借鉴意义。

2025-04-13 14:19:23 1398 1

原创 梯度提升回归器详解:带有代码示例的可视化指南

在机器学习领域,我们都盼着预测结果能精准无误。一开始,简单的决策树帮我们开了个好头,效果还算差强人意。紧接着,随机森林和AdaBoost横空出世,预测表现更上一层楼。然而,的出现,彻底改写了游戏规则,让预测精度实现了质的飞跃。有人说:“之所以效果拔群,背后的原理其实挺简单:它会接连构建一个又一个模型,每一个新模型都一门心思去修正前面所有模型犯下的错误。这种循序渐进纠错的方式,就是它的独特魅力所在。

2025-04-11 22:52:35 752

原创 深入理解极端随机森林:原理、代码与应用

在开始介绍随机森林前,首先我要介绍一下集成学习算法,它可不算是单打独斗的机器学习算法,它的本事在于把好多机器学习器整合到一块儿,合力完成学习任务。打个比方,就像组建一支足球队,每个球员都有自己的特长,整合在一起,球队实力就强了。集成学习也一样,集合了各种算法的长处,在机器学习里,准确率常常能名列前茅。不过呢,它也有个小缺点,训练模型的时候,过程有点复杂,效率不是特别高。眼下,常见的集成学习算法主要分两类:一类是基于Bagging的算法,另一类是基于Boosting的算法。

2025-04-11 14:23:31 806

原创 一文搞懂 XGBoost,从原理到实践去深入理解 XGBoost

XGBoost 作为一种强大的机器学习算法,凭借其高效、灵活、准确的特性,在数据挖掘和机器学习领域得到了广泛应用。通过本文对 XGBoost 原理的讲解、案例的演示以及参数调优的介绍,相信大家对 XGBoost 有了更深入的理解。在实际应用中,要根据具体问题和数据特点,合理调整 XGBoost 的参数,充分发挥其优势。同时,不断学习和尝试新的技巧,进一步提升模型性能。机器学习是一个充满挑战与机遇的领域,XGBoost 只是其中的一把利器,希望大家能够熟练掌握,在数据科学的道路上不断探索前行。

2025-04-08 14:30:12 1730

原创 斯坦福大学李飞飞团队新突破!FlowMo 革新图像 Tokenizer

当我们悠然刷着手机,看到一张可爱猫咪的照片时,大脑会瞬间识别出「这是一只猫」,这一切不过是电光火石间的事儿。但在计算机的 “眼中”,情况却复杂得超乎想象。假设这是一张1000×1000像素的彩色照片,在计算机的世界里,它摇身一变,成了一个包含300万个数字的庞大数据集(1000×1000×3个颜色通道)。每一个数字都承担着重要使命,它们代表着对应像素点颜色的深浅程度,取值范围从0到255,0是深沉的黑色,255则是明亮的白色,而中间的数值就是各种过渡的灰色调。

2025-04-04 23:40:55 626

原创 使用 NumPy 实现全连接神经网络及其结构可视化

使用numpy去实现一个简单的全连接神经网络,包含一个输入层,一个隐藏层,一个输出层。

2025-04-04 16:04:48 1031

原创 一文说清楚什么是Base LLM,Instruction-Tuned LLM

在实际应用中,建议优先尝试指令微调模型,它们就像已经具备基本能力的 "通用助手",能快速解决大多数实际问题。对于特殊需求,再考虑在基础模型上进行深度定制。其本质就是相当于可以把预训练是大语言模型的 "婴儿期",目标是让模型掌握语言规律,就像人类婴儿通过听大量对话学习语言规则。它们的关系就像毛坯房与精装房,前者需要后续装修才能入住,后者已经配备了各种智能设备。

2025-04-04 04:16:29 986

原创 高效精准,LightGBM 重塑时间序列预测格局!!!

哈喽,我不是小upper~今儿和大家聊聊 LightGBM从整篇文章的开始的简单的概念介绍到最后的完整案例,给大家做一个详细的解释。首先,LightGBM(全称叫:Light Gradient Boosting Machine,直译过来比较抽象,我这里直译为轻量级梯度提升框架)主要用于等任务。它特别擅长处理大型数据集,并且速度非常快。LightGBM 是基于(Gradient Boosting)的框架,类似于 XGBoost,但更轻便高效,所以叫“Light”。

2025-04-03 02:15:00 1174

原创 学习机器学习还不懂范数??看这一篇就够了!(东半球最通俗易懂版)

在向量与矩阵运算领域,范数是重要概念。不同范数在计算方式、几何意义、敏感性及优化行为上存在显著差异。如L0范数统计非零元素个数,L1范数计算元素绝对值之和,L2范数为平方和的平方根,L∞范数取元素最大绝对值。这些差异导致其在机器学习等实际应用中表现不同,L1易产生稀疏解,L2使解更平滑。理解不同范数特性,有助于在如特征选择、参数优化等场景中,精准选择范数类型,实现性能与目标的最佳平衡 。

2025-03-21 14:42:36 929

原创 突破传统:Dynamic Tanh(DyT)如何重塑 Vision Transformer 训练格局

在神经网络领域,归一化层长期被视为稳定训练与提升性能的关键。近期研究却发现,以 Dynamic Tanh(DyT)替换传统的层归一化(LN),能使 Vision Transformer(ViT)模型实现别样的高效训练。本文通过对比实验,详细展示了在 ViT 模型中,使用 DyT 替换 LN 前后的差异。实验选用 CIFAR10 数据集,经尺寸适配后用于训练。代码实现层面,清晰呈现了 DyT 层的构建、LN 替换过程及完整训练流程。结果表明,DyT 不仅在训练效果上可与 LN 媲美,且在计算效率等展现独特优势

2025-03-21 11:21:47 1475 2

原创 Python中NumPy的线性代数子模块linalg详解

在机器学习与数据分析领域,线性代数运算极为关键,NumPy与SpaCy的linalg相关功能各有千秋。NumPy的linalg模块功能全面,涵盖矩阵乘法、求逆、特征值与特征向量计算等,其基于numpy数组,通过严谨数学公式,为科学计算与机器学习提供强大数值运算支持,广泛应用于线性回归等场景。而SpaCy虽无完整linalg模块,但在自然语言处理中利用线性代数,如基于词向量计算余弦相似度衡量文本语义相似性。二者功能侧重点不同,NumPy侧重数值矩阵操作,SpaCy侧重文本语义分析;数据类型与应用场景也各异。

2025-03-20 17:19:22 1152

原创 教你用纯 Numpy 实现神经网络:从数学公式到可运行代码, 实现双输入单隐藏层分类器

本文通过NumPy实现了一个包含单隐藏层的全连接神经网络,用于解决二维非线性分类问题。首先生成异或关系数据集,通过sigmoid激活函数构建包含5个隐藏神经元的网络结构。训练过程包括前向传播计算隐藏层和输出层激活值,利用交叉熵损失函数评估预测误差,反向传播通过链式法则计算梯度并更新权重参数。代码详细实现了误差项传递和梯度计算,解决了梯度消失问题。训练结果通过决策边界可视化验证,展示了网络对非线性模式的学习能力。

2025-03-19 14:11:54 902

原创 【0 基础也能懂!】机器学习之监督学习指南:从分类到回归

想象你面前有一个装满彩色弹珠的盒子,你需要教会机器人根据颜色和大小将弹珠分成不同的罐子。监督学习就像是这个过程:我们给机器人提供标注好的弹珠(颜色 + 大小→罐子类型),让它学会如何自动分类新弹珠。这就是监督学习的核心 —— 从带标签的数据中学习规律。分类任务的目标是将数据分到不同的类别中。

2025-03-18 17:31:33 626

原创 还不懂深度学习里的梯度下降?从奇幻下山之旅开启模型优化秘籍!

批量梯度下降就像是一群人一起商量,方向比较准,但行动起来比较慢。随机梯度下降就像独行侠,行动迅速,但方向可能不太靠谱,容易走弯路。小批量梯度下降就像小队协作,既保证了一定的速度,又能让方向相对稳定。通过这三种不同的 “下山” 方式,我们可以根据实际情况选择最合适的方法,帮助我们更快、更准确地找到损失函数的最小值,优化我们的模型参数。

2025-03-17 17:32:52 981

原创 机器学习小白也能懂!用简单代码开启智能之旅[建议收藏❤️]

在当今人工智能技术蓬勃发展的背景下,机器学习作为其核心分支,已成为推动各领域创新的重要驱动力。本文以经典的鸢尾花分类问题为例,系统地展示了机器学习从数据处理到模型构建的完整流程。通过利用Python生态中的高效工具库(如scikit-learn、pandas和matplotlib),我们首先加载并预处理鸢尾花数据集,将原始数据转化为结构化格式以便分析。接着,采用监督学习中的K近邻算法构建分类模型,通过科学划分训练集与测试集(测试集占比20%),确保模型在未见过的数据上具备可靠的泛化能力。在模型训练阶段,通

2025-03-17 14:44:15 547

原创 【0 基础也能懂!】系列超市小票 + 奶茶订单:自创5 个生活场景数据集(含脏数据)

🥤📊 不会写代码也能玩数据分析?这 3 个「生活级」数据集让你秒变数据高手!你是否见过:▷ 奶茶店老板靠 3 行代码,找出每周三必爆卖的「隐藏爆款」?▷ 宝妈用手机算复购,发现某品牌面膜「买一送一」其实更贵?现在,这些真实场景的数据集,0 基础也能直接玩!🔥 3 个「会说话」的数据集,藏着生活的小秘密1. 奶茶店订单:雨天卖爆的不是珍珠,是它!2. 超市小票:VIP 用户都在偷偷买什么?3. 电商复购:口红用户的「变心周期」是多久?

2025-03-13 15:57:49 197

原创 【0 基础也能懂!】保姆级 Pandas 入门:用 Python 玩转数据,5 分钟学会超市理货员都会的数据分析

小明现在每周三下午都会提醒店长备货珍珠奶茶,因为 Pandas 告诉他:这个时段的销量占全天的 35%!:关注fly科技资讯公众号回复 "pandas 实战",领取。本公众号所有资料均无偿提供,只为帮助各位更好的入门数据分析,绝无套路!现在,打开你的电脑,跟着课程一步步操作,下一个让数据 "听话" 的人就是你!:安装后打开 Jupyter Notebook(Anaconda 菜单里有),输入。⚠️ 不适合:完全没碰过 Python 的纯小白(建议先学 3 天基础语法),没有报错就证明成功了噢!

2025-03-13 14:45:41 1241

高效精准,LightGBM 重塑时间序列预测格局!!!

LightGBM数据集

2025-04-02

【0 基础也能懂!】系列超市小票 + 奶茶订单:自创5 个生活场景数据集(含脏数据)

奶茶店订单数据集生成代码 首先定义了基础元素,包括日期范围,商品列表 然后确定业务逻辑-周末效应,天气促销等 对于每条订单,生成含脏数据的字段 最后将生成的数据保存为带业务场景的奶茶店订单.csv 字段为:日期、星期、商品、销量、客单价、优惠券(是否使用)、天气 超市小票数据集生成代码 首先定义了可能的商品信息,包括商品名称、分类和价格。 然后确定了日期范围,在这个日期范围内随机生成每天的购买记录。 对于每次购买,随机选择商品、数量、会员等级和是否促销。 最后将生成的数据保存为超市小票.csv文件。 电商复购数据集生成代码 定义了用户数量和日期范围,以及可能的商品列表。 对于每个用户,随机生成首次购买时间和首次购买的商品。 随机生成复购次数,根据复购次数计算最近复购时间和总消费金额。 最后将生成的数据保存为电商复购数据.csv文件。

2025-03-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除