- 博客(2081)
- 资源 (7)
- 收藏
- 关注
原创 异常值检测:3 种强大但鲜为人知的方法
异常值检测是数据分析的关键部分,有助于识别可能预示数据错误、欺诈或罕见事件的异常情况。虽然 Z 分数和 IQR 等传统方法被广泛使用,但也有一些鲜为人知的算法提供了强大的替代方案。在这篇文章中,我将介绍三种这样的方法:隔离森林 (iForest)、局部异常值概率 (LoOP) 和最小协方差行列式 (MCD)。每个解释都将涵盖该方法背后的直觉、算法的详细工作原理以及使用模拟数据的 Python 示例。
2025-03-30 16:30:42
849
原创 使用 PCA 进行异常值检测
PCA(主成分分析)通常用于数据科学,通常用于降维(通常用于可视化),但实际上它对于异常值检测也非常有用,我将在本文中介绍。
2025-03-30 15:29:05
616
原创 使用傅里叶变换测量声卡的频率失真
假如我希望使用我的声卡来模拟软件无线电,利用声音而不是射频信号。我的声卡能胜任这项任务吗?本文将研究一种技术来找出答案。另外,需要了解音频技术的读者也可以阅读。
2025-03-16 23:22:44
661
原创 自然语言处理初学者指南
对于初学者来说,自然语言处理的发展历史非常有必要了解,通过梳理历史发展,我们可以清楚技术脉络,从而有助于我们对于这门技术的整体有宏观认知。本文就是要梳理该技术的发展过程,呈现给初学者。
2025-03-12 18:43:48
1100
原创 隐性狄利克雷分布 (LDA) 算法简述
关于主题模型中,主要的数学理论是“潜在狄利克雷分布”,那么“潜在狄利克雷分布”是如何工作的呢?本篇作为简单直观的入门教程,展示给读者。
2025-03-12 13:18:07
798
原创 深度学习的正则化深入探讨
在训练机器学习模型时,模型很容易过拟合或欠拟合。为了避免这种情况,我们在机器学习中使用正则化来使模型正确地拟合到我们的测试集。正则化技术有助于减少过拟合的可能性,并帮助我们获得最优模型。
2025-03-01 23:53:56
714
原创 构建一个视觉Transformer 模型
基于自我注意的 transformer 模型由 Vaswani 等人在 2017 年的论文 Attention Is All You Need 中首次提出,并已广泛用于自然语言处理。transformer 模型是 OpenAI 用于创建 ChatGPT 的模型。Transformer 不仅适用于文本,也适用于图像,基本上也适用于任何顺序数据。本文将介绍视觉transformer 模型如何构建。
2025-02-27 10:24:25
888
原创 Python 中从零开始的随机梯度下降
想象一下,在一个雾蒙蒙的早晨,你试图找到山谷中的最低点——你迈出的每一步都像是在猜测地形。在机器学习的世界中,这种 “猜测” 过程正是优化算法的作用 — 它们调整模型的参数以找到最佳结果。这就是SGD。
2025-02-17 12:15:14
1117
原创 联合概率:定义、公式和示例
概率是指事件发生的可能性。但是当涉及两个变量时,您可能具有联合概率。这是一个统计度量值,可以告诉您两个独立的事件是否可能同时发生。对于使用它来确定两组变量之间关系的统计学家来说,它是一个重要的指标
2025-02-16 23:07:21
875
原创 ML 系列数学: 联合分布、 边际分布和条件分布
在深入研究协方差和相关性的复杂性之前,首先了解联合分布、边际分布和条件分布的概念很重要。这些基本概念为完全掌握多个随机变量之间的关系和交互提供了必要的背景知识。通过理解这些基本概念,我们可以更好地解释和分析机器学习和统计分析中变量之间的协方差和相关性。
2025-02-16 22:51:02
1013
原创 要避免这样的 Python 函数!!
我偶然发现了某人写的一个 Python 函数,虽然是功能实现了,但是,过上几周,即使编写者也不好回答这段代码的意义。好了,先举出“恶手”的范例,然后给出良好的修改。
2025-01-27 22:31:17
581
原创 关联传播和 Python 和 Scikit-learn 实现
假设您有一个数据集,其中各个样本之间存在关系,您的目标是识别数据集中的相关样本组。聚类是无监督机器学习算法的一部分,可能是要走的路。但是,当您并不真正知道聚类的数量时,应该应用哪种聚类算法呢?
2025-01-27 12:46:46
1529
1
原创 掌握机器学习中的优化:关键概念和技术解释
对于初学者来说,优化器是否能够构成深刻映像呢?你能否说清梯度下降对二次多项式的意义呢?本文将补充这些概念。
2025-01-12 22:46:28
901
1
原创 Magentic-One、AutoGen、LangGraph、CrewAI 或 OpenAI Swarm:哪种多 AI 代理框架最好?
生成式人工智能中的多人工智能代理主题正在升温,各大科技巨头都围绕它发布了一些框架。但是该选择哪种多人工智能代理框架呢?他们实在太多了!!随着 OpenAI 发布 Swarm 和微软的 Magentic-One,这个领域变得非常混乱。因此,为了消除任何疑问,我将尝试解释每个框架的主要功能、优缺点,让您决定哪个最适合您。我们将讨论
2025-01-07 23:25:59
1308
原创 条件期望窥探
条件期望是概率论的高级理论部分,很抽象难懂,而一旦学会使用,那么对于一些高级的贝叶斯理论模型就能够灵活实现。本篇是从诸多国外教材中整理汇编的论文。
2025-01-06 20:24:56
92
原创 在大型语言模型LLM中使用私有数据
随着 2023 年大型语言模型的大规模兴起,许多“基于对话”的服务应运而生,使用户能够通过自然对话与数据和其他产品进行交互。我们现在处于一个 LLM 改变我们与各种数据和信息交互方式的时代。筛选无尽的搜索结果或解读复杂的用户界面的日子已经一去不复返了;现在,您只需要自然语言就可以开始探索。
2025-01-05 12:24:27
1582
1
原创 使用强化学习训练神经网络玩俄罗斯方块
在 2024 年暑假假期期间,Tim学习并应用了Q-Learning (一种强化学习形式)来训练神经网络玩简化版的俄罗斯方块游戏。在本文中,我将详细介绍我是如何做到这一点的。我希望这对任何有兴趣将强化学习应用于新领域的人有所帮助!
2025-01-05 12:17:13
1361
1
原创 两种分类代码:独热编码与标签编码
当你深入研究机器学习时,你遇到的第一个障碍就是如何处理非数字数据。这就是编码的作用所在——将分类数据转换成机器学习算法可以理解的东西。但问题是:并非所有编码都是平等的。
2025-01-01 19:52:52
1376
原创 在docker上通过几行代码可设置 Kaggle 环境
使用深度学习前,我认为最好先提一下如何正确设置一个包含我们想要的大多数库的环境。当你进入数据科学的竞争领域时,大多数人都会遇到Kaggle。
2024-12-31 15:39:11
1320
原创 回归问题的等量分层
在同一个数据集中,我们可以看成是一个抽样体。然而,我们如果将这个抽样体分成两份,每一份依然保留他们的分布(将一个抽样集合合理地分成两个抽样集合),这是我们在训练中经常需要的。在本文中,我将尝试举例说明如何在保留分布比例的情况下对回归问题进行分割。让我们从基础开始。
2024-12-31 15:26:32
976
原创 在异常检测中利用分布统计python实现
异常检测是识别数据中不符合预期行为的罕见或异常模式的过程。异常检测的应用范围涵盖各个行业,从欺诈检测到识别制造设备中的故障,甚至发现医疗保健数据中的异常情况。为了有效地检测这些异常,我们可以利用统计特征来突出显示与预期状态的偏差。
2024-12-30 20:50:22
630
原创 K-means 聚类:Python 和 Scikit-learn实现
虽然深度学习算法无疑是当今最流行的机器学习算法,但还有更多算法。聚类是一种机器学习,您不需要向模型提供训练集,而是尝试在运行时从数据集中得出特征,以便以不同的方式构造数据集。它属于无监督机器学习算法。
2024-12-30 13:21:19
1829
2
原创 C++ 与 Python(静态类型语言与动态语言)
Python和C++到底有啥区别?在使用的时候有啥特殊的益处?这种问题的意义在于:如果对语言了解越清楚,越能够更加大胆地应用哪些极限功能,从而最大限度地发挥语言优势。这不是区区几句话能说清楚的。这里将对这个问题给以澄清。
2024-12-29 16:05:15
1140
原创 集成技术综合指南:Bagging 和 Boosting
在机器学习中,集成技术是一种强大的方法,它可以结合多种模型的预测来提高准确性、减少方差并增强对未知数据的泛化能力。集成方法不依赖于单一模型,而是利用多种模型的综合能力来做出更稳健的预测。两种最流行的集成技术是bagging和boosting,这两种技术都被广泛用于提高模型(尤其是决策树)的性能。
2024-12-28 16:40:27
1376
原创 如何使用 Tweepy (Python) 从 Twitter API 访问数据
Twitter API 允许您做很多事情,包括检索推文数据。为了访问这些数据,您需要一个开发者帐户。使用 Twitter API 应该很容易,但有时图片和简单的代码可以为您省去一些麻烦。
2024-12-27 17:57:27
823
原创 理解有放回和无放回抽样 (Python)
概率的模型很重要,比如有放回抽样和无放回抽样,这两个模型都拥有很强实用型,绝不能说说就算了,而是用程序如何实现的问题。本教程将深入探讨有放回和无放回抽样,并涉及这些概念在数据科学中的一些常见应用。与往常一样,本教程中使用的代码可在我的GitHub上找到。让我们开始吧!
2024-12-27 17:32:03
1208
原创 了解反向传播算法
梯度正向和反向传播,是神经网络的重要概念。其中包含的重要技巧是:1)复函数的导数,2)矩阵导数。3)梯度传播的意义。本文将叙述相关内容。
2024-12-24 18:34:15
747
原创 ML 系列:第 40 节 — 最大似然MLE 的简单问题
最大似然估计 (MLE) 是统计学和机器学习中用于估计概率模型参数的基本技术。在本文中,我们将介绍一个使用 MLE 估计正态分布参数的简单示例。我们将使用 Python 进行实现和可视化。
2024-12-21 23:25:49
467
原创 ML 系列:第 41节 - 假设检验简介
在我们这个数据驱动的世界里,决策通常基于数据。假设检验在这个过程中起着至关重要的作用,无论是在商业决策、医疗保健领域、学术界还是质量改进的背景下。如果没有明确的假设和严格的假设检验,就有可能得出错误的结论并做出次优的决策。
2024-12-21 23:20:17
983
原创 最大似然估计 (MLE) 和最大后验估计 (MAP) 背后的直觉
在数据分析中,分析师不同,给出的方案也不同,这就导致对同一事务的分析,都是“正确”的,但精致程度不同,因而导致性能上的差异。本文将对不同水平的分析(MLE和MAP)进行对照,让读者自行理解其中的奥妙。
2024-12-19 15:03:27
1497
原创 最大似然是什么?
在谈最大似然性之前,需要理解他们的应用条件,首先,人类所掌握的概率模式并不多,而在这有限个的分布模式中,选择某个可能与客观现象对应起来做为理论模型,这是第一步。第二步是实现该模型的参数设定,尽可能和客观现象吻合,这就是参数的最大似然估计。
2024-12-19 12:46:41
337
原创 复杂网络系列:第 4 部分 - 使用 NetworkX 进行网络分析
在本节中,我们将使用 NetworkX 探索基本的网络指标。这些指标有助于我们了解节点的重要性、网络的结构以及其中的各种动态。让我们深入研究中心性度量、聚类系数和平均路径长度。
2024-12-16 20:59:29
878
原创 掌握特征提取:机器学习中的 PCA、t-SNE 和 LDA模型
与 PCA(主成分分析)相比,这是一种更好的降维技术。t-SNE,即 t 分布随机邻域嵌入,是一种通过将高维数据降低到低维空间(通常是二维或三维)来实现可视化的统计方法。这使得数据的可视化和解释变得更加容易,特别是在处理机器学习和数据科学等复杂数据集时。
2024-12-16 13:25:49
1169
1
使用傅里叶变换测量声卡的频率失真
2025-03-16
【双曲几何-0加莱模型】庞加来上半平面模型的Python实现
2024-05-07
OpenGL4.6的GLSL语言规格手册
2024-04-19
【OpenGL高级】刚体绕任意轴旋转
2024-04-19
【OpenGL实践08】现代渲染管线在GLUT和Pygame和Qt.QOpenGLWidget上各自的实现代码
2024-04-19
QOpenGLWidget的三维渲染
2024-04-17
【OpenGL实验】在python、Qt5、pyOpenGL程序的若干要点
2024-04-15
强化学习的Q(λ)学习原理资料
2024-03-27
强化学习的Q-Learn算法ppt资源
2024-03-27
使用 python + Qt + OpenGL 的第一步
2024-03-27
使用Python动画粒子的薛定谔波函数(ψ)(完整代码)
2024-03-20
glViewport - 人为干预视口改变和场景
2024-03-10
【OpenGL实现 03】纹理贴图原理和实现
2024-03-08
12pyopenGL静态圆锥方体球体前后遮挡
2024-02-23
11PyopenGL如何将图片贴到表面class03
2024-02-23
大脚怪野外募集报告数据分析
2024-02-22
1975年卡顿伍德湖研究区湿地P1数字正射校正航空
2024-02-22
坦桑尼亚的多多马太阳能测量数据
2024-02-22
2022年全球气候热点数据集
2024-02-22
林业类数目种类分布的数据集
2024-02-22
实木板表面纹理识别数据集
2024-02-21
Capstone-食物数据集
2024-02-21
关于数据集:食物的热量
2024-02-21
坦克打飞船的完整代码(可执行)
2024-02-16
坦克打飞碟的游戏基础界面实现
2024-02-16
8pygame键盘动画实现
2024-02-15
双曲几何的库geometry-tools库(在python用)
2024-02-10
C++ 中的模型预测控制(012)
2024-02-09
4用C++和matplotlib实现贝塞尔曲线的库
2024-02-09
python多进程博客案例
2024-01-27
2用python实现仿射变换的案例
2024-01-27
基于python的线性方程数字解法
2024-01-27
pygame泡泡碰撞游戏
2023-11-04
python基于pygame库开发的滑雪游戏
2023-11-04
Ceras下cifar10的图像识别深度网络
2023-10-26
小工具:移除目录内部所有空目录
2023-10-23
小工具:将目录中文件按照扩展名整齐归档
2023-10-23
pytorch下多层感知机的实现
2023-10-23
二项分布的字符串自动生成和统计验证
2023-10-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人