- 博客(90)
- 收藏
- 关注
原创 人工智能之核心基础 机器学习 第九章 聚类算法
算法是否需指定K簇形状噪声处理速度适用场景K-Means✅ 是球形❌ 不能⭐⭐⭐⭐用户分群、快速原型层次聚类❌ 否(可后选)球形❌ 不能⭐⭐小数据、需要树状结构DBSCAN❌ 否任意✅ 自动识别⭐⭐⭐异常检测、非球形簇💡建议先试K-Means(快、简单)如果簇形状奇怪 → 用DBSCAN数据量小且想探索层次关系 → 用层次聚类。
2026-01-07 23:19:52
1047
原创 人工智能之核心基础 机器学习 第八章 无监督学习概述
监督学习:老师告诉你每道题的正确答案(标签),你学着模仿。无监督学习:给你一堆试卷,但没有标准答案,你要自己发现题目之间的规律、分组或结构。✅核心特点输入只有特征XXX,没有标签yyy目标不是预测,而是理解数据本身像“数据侦探”一样挖掘隐藏模式💡 举个生活例子:你收到一箱混装水果(苹果、橙子、香蕉),没人告诉你哪个是哪个。你通过颜色、形状、大小把它们分成几堆——这就是聚类!任务目标关键算法输出形式聚类分组相似样本群组标签(0,1,2…)降维压缩特征维度PCA, t-SNE。
2026-01-06 20:22:19
1500
原创 人工智能之核心基础 机器学习 第七章 监督学习总结
需求推荐算法快速出结果朴素贝叶斯、逻辑回归业务可解释决策树、线性模型高精度竞赛文本分类朴素贝叶斯 > SVM(线性) > 随机森林中小规模通用随机森林(首选)、SVM大数据回归LightGBM、随机森林🎯黄金建议先跑一个简单模型(如逻辑回归或朴素贝叶斯)作为baseline再逐步尝试复杂模型。很多时候,简单模型已经足够好!
2026-01-04 19:49:39
921
原创 人工智能之核心基础 机器学习 第六章 朴素贝叶斯
朴素贝叶斯 = 贝叶斯定理 + 特征独立假设文本分类用多项式NB,连续数据用高斯NB训练快、内存小、对小数据友好虽“朴素”,但在文本任务中常胜!💡建议下次做文本分类项目,先跑一个朴素贝叶斯作为baseline!它可能比你想象的更强,而且几行代码就能搞定!
2026-01-03 19:32:38
1113
原创 人工智能之核心基础 机器学习 第五章 支持向量机(SVM)
SVM = 找最宽马路分隔两类线性可分?→ 硬间隔;不可分?→ 软间隔 + 核函数RBF核最万能,线性核适合文本必须标准化!必须调参!不适合大数据!💡初学者建议先用试试线性可分性再用调参文本任务优先选线性核,又快又好!
2026-01-03 02:21:06
978
原创 人工智能之核心基础 机器学习 第四章 决策树与集成学习基础
决策树就像“20个问题”游戏——通过一系列是/否问题,一步步缩小范围,最终做出判断。✅核心思想:用树形结构对数据进行分而治之的划分。“三个臭皮匠,顶个诸葛亮”集成学习:组合多个弱学习器(表现略好于随机猜测),形成一个强学习器。模型核心思想适用场景关键优势决策树if-else规则链需要可解释性直观、无需特征缩放随机森林多棵树投票(Bagging)通用分类/回归稳定、抗过拟合串行纠错(Boosting)竞赛/高精度需求精度高、支持多种任务💡建议先用决策树理解逻辑再用随机森林获得稳定性能。
2026-01-01 16:34:03
1101
原创 人工智能之核心基础 机器学习 第三章 线性回归与逻辑回归
任务模型数据特点关键指标房价预测线性回归 / Ridge / Lasso连续目标值,数值特征R², RMSE疾病诊断(是否患病)逻辑回归二分类,医疗指标准确率、召回率(别漏诊!垃圾邮件识别逻辑回归 + TF-IDF文本分类精确率、F1值。
2025-12-31 16:24:44
1235
原创 人工智能之核心基础 机器学习 第二章 监督学习
监督学习就像“有老师教学生”的过程。你给计算机一堆已经知道答案的例子(比如:“这张图是猫”、“那封邮件是垃圾邮件”),让它从这些例子中学会规律,然后用学到的规律去预测新数据的答案。✅核心关键词有标签的数据“标签”就是每个样本的正确答案。图片 + “猫” → 标签是“猫”房屋信息 + “300万元” → 标签是价格监督学习= 用带答案的数据教模型分类预测“是什么”,回归预测“是多少”数据要分训练/验证/测试三份,测试集是“期末考”分类看准确率、精确率、召回率、F1、AUC。
2025-12-30 19:52:16
1024
原创 人工智能之核心基础 机器学习 第一章 基础概述
机器学习(Machine Learning, ML)是一种通过算法和模型使计算机从数据中自动学习并进行预测或决策的技术,属于人工智能的一个分支。其核心目标是让计算机在没有明确编程指令的情况下,通过对大量数据的分析,识别模式和规律,从而构建适应新数据的模型。Tom Mitchell的经典定义(卡内基梅隆大学计算机科学教授,机器学习奠基人之一):“对于某类任务 T 和性能度量 P,如果一个计算机程序在 T 上以 P 作为性能度量的学习经验为 E,那么我们说这个程序从经验 E 中学习。用大白话解释。
2025-12-29 19:43:53
1211
原创 人工智能之数学基础 信息论:第四章 应用延伸
信息论不仅是通信工程的基石,更在人工智能、深度学习、大数据处理中扮演关键角色。从神经网络中的嵌入表示到大模型的 Token 压缩,从变分自编码器(VAE)到信息瓶颈理论,信息论提供了统一的数学语言。信道容量(Channel Capacity):通信的极限速率无损数据压缩原理:香农第一定理与霍夫曼编码有损压缩与率失真理论:AI 中的表示学习AI 中的信息编码实践:Tokenization、嵌入、量化配套 Python 代码实现(霍夫曼编码、信道仿真、压缩率分析)信道是。
2025-12-27 18:56:17
929
原创 人工智能之数学基础 信息论:第三章 实用工具
在机器学习和数据科学中,如何从成百上千个特征中选出最有用的子集?互信息(Mutual Information)和信息增益(Information Gain)。它们不仅能衡量特征与目标变量的相关性,还能用于无监督/有监督特征选择、决策树分裂、聚类评估等任务。互信息(MI)的数学定义与直觉信息增益(IG)与互信息的关系连续变量的互信息估计方法在特征选择中的实际应用配套 Python 代码实现(从零构建 +sklearn对比 + 可视化 + 实战案例)IX;Y∑x∈X∑y∈Y。
2025-12-27 18:34:14
1132
原创 人工智能之数学基础 信息论:第二章 核心度量
交叉熵(Cross-Entropy)和 KL 散度(Kullback-Leibler Divergence)是现代机器学习,尤其是深度学习分类任务的理论基石。让预测分布逼近真实分布。交叉熵的定义与直觉KL 散度(相对熵)的数学本质两者之间的深刻联系为什么分类任务使用交叉熵作为损失函数?配套 Python 代码实现(从零构建 + PyTorch/TensorFlow 对比 + 可视化)给定真实分布 $ P $和模型预测分布 $ Q $HPQ−∑xPxlogQxHP。
2025-12-26 19:31:01
1233
原创 人工智能之数学基础 信息论:第一章 基础概念
信息论由克劳德·香农(Claude Shannon)于1948年创立,是通信、数据压缩、密码学、机器学习(尤其是特征选择、决策树、变分推断)的理论基石。自信息与香农熵(信息不确定性的度量)联合熵、条件熵互信息(Mutual Information)KL 散度(相对熵)在 AI/ML 中的应用(如 ID3 决策树、特征选择)配套 Python 代码实现(从零实现 +scipy对比 + 可视化)概念公式直观意义单位自信息事件 $ x $ 的信息量比特熵 $ H(X) )
2025-12-26 19:05:31
1063
原创 人生是否是NP难问题?
NP 难问题:至少和 NP 中最难的问题一样难;特点:解空间巨大(指数级);没有已知的高效(多项式时间)算法能找到全局最优解;但给定一个候选解,有时可以评估它好不好(虽然“好”的标准可能模糊);实践中常依赖启发式、试错、局部搜索、随机探索等方法。人生不是一道有标准答案的数学题,而是一场在迷雾森林中的 NP 难探险。我们没有上帝视角,也没有无限时间,但正因如此,每一次勇敢的选择、每一次真诚的尝试,都让这个“近似解”闪耀着独特的人性光芒。所以——不必求最优,但求无悔;
2025-12-25 20:22:21
680
原创 人工智能之数学基础 离散数学:第四章 离散概率
离散概率是离散数学与概率论的交叉核心,为机器学习中的分类、采样、不确定性建模提供理论基础。离散概率空间与基本公理离散型随机变量及其分布重要离散分布:伯努利、二项、泊松、几何期望与方差在 AI 分类任务中的应用(如二项分布建模正确/错误预测)配套 Python 代码实现、自定义模拟、可视化、分类误差分析)函数 $ X: \Omega \to \mathbb{R} $,其取值为可数集合(有限或可列无限)。"""手动计算二项 PMF"""return 0.0"""手动计算二项 CDF"""
2025-12-25 20:04:18
1086
原创 人工智能之数学基础 离散数学:第三章 组合数学
组合数学是离散数学的核心分支,研究离散对象的计数、构造与优化。它在密码学、算法设计、概率论、机器学习特征工程、AI 组合优化等领域有广泛应用。基本计数原理(加法/乘法原理)排列与组合(含重复、环排列)容斥原理生成函数(Generating Functions)简介AI 中的组合优化问题(如子集选择、超参数组合)配套 Python 代码实现mathitertools、自定义函数、实际案例)概念公式应用场景排列}{(n-r)!} $密码、调度组合抽样、子集选择重复组合资源分配容斥原理概率、错排。
2025-12-25 19:34:06
1100
原创 人工智能之数学基础 离散数学:第二章 图论
图论是离散数学的核心分支,广泛应用于社交网络分析、路径规划、编译器优化、知识图谱、推荐系统等计算机科学领域。图的基本概念(有向图/无向图、权重、度)图的表示方法(邻接矩阵、邻接表)图的遍历算法(深度优先搜索 DFS、广度优先搜索 BFS)最短路径算法配套 Python 代码实现(从零构建 + NetworkX 对比 + 可视化)顶点集(Vertices / Nodes)边集(Edges)概念关键点复杂度邻接矩阵快速查边,内存大$ O(n^2) $邻接表节省内存,遍历快BFS队列,层序遍历。
2025-12-24 19:30:14
1149
原创 人工智能之数学基础 离散数学:第一章 集合论与逻辑推理
离散数学是计算机科学、人工智能和形式化方法的理论基石。集合论提供了数据结构的抽象基础,命题逻辑和谓词逻辑则是知识表示、自动推理和规则系统的核心工具。集合的基本概念与运算命题逻辑:语法、真值表、等价与推理规则谓词逻辑:量词、AI 中的知识表示(如专家系统)配套 Python 代码实现(使用、自定义类、规则引擎示例)主题核心思想计算机意义集合论数据的抽象容器数据结构、数据库理论基础命题逻辑真假组合与推理电路设计、布尔搜索、SAT 求解谓词逻辑个体、关系与量词知识表示、自动推理、语义网🔚。
2025-12-24 18:59:58
1050
原创 人工智能之数学基础 优化理论:第四章 凸函数与非凸函数
在优化理论中,凸性(Convexity)是决定问题“难易程度”的核心属性。凸优化问题具有全局最优解可高效求解的优良性质,而非凸问题则充满局部极小值、鞍点等挑战。本文系统讲解凸函数的定义与判别方法常见凸/非凸函数示例AI 中非凸优化的典型场景与应对策略,并提供完整的Python(NumPy / Matplotlib / SciPy / SymPy)代码实现与可视化。θx1−θy∈Cθx1−θy∈C✅ 直观:集合内任意两点连线仍在集合内(如球、多面体;非凸如月牙形)属性。
2025-12-23 19:22:58
1293
原创 人工智能之数学基础 优化理论:第三章 约束优化
约束优化是优化理论的核心分支,广泛应用于机器学习(如正则化)、经济学(资源分配)、工程设计(结构优化)等领域。本文系统讲解等式约束优化的拉格朗日乘数法不等式约束的 KKT 条件L1/L2 正则化与约束形式的等价性,并提供完整的Python(SciPy / CVXPY / NumPy / Matplotlib)代码实现与可视化。方法适用问题关键条件应用拉格朗日乘数法仅等式约束几何优化、物理KKT 条件等式+不等式约束规范一般非线性规划L2 正则化无约束岭回归、防止过拟合L1 正则化无约束。
2025-12-23 18:50:34
934
原创 人工智能之数学基础 优化理论:第二章 无约束优化
本文将系统讲解梯度下降(Gradient Descent, GD)随机梯度下降(Stochastic Gradient Descent, SGD)动量法(Momentum)Nesterov 加速梯度(NAG)AdaGradRMSProp和Adam等主流优化器,揭示其数学原理、收敛特性与适用场景,并提供从零实现 + PyTorch 对比的完整 Python 代码与可视化。
2025-12-22 20:59:13
821
原创 人工智能之数学基础 优化理论:第一章 优化基础
优化(Optimization)是在给定条件下寻找“最佳”决策的数学过程,广泛应用于机器学习、工程设计、经济学、运筹学等领域。本文系统讲解优化问题的基本要素(目标函数、变量、约束)、局部最优 vs 全局最优无约束与约束优化方法,并提供完整的Python(SciPy / CVXPY / Matplotlib)代码实现与可视化。类型目标函数约束求解方法是否保证全局最优无约束优化任意无梯度下降、牛顿法、BFGS否(除非凸)线性规划(LP)线性线性单纯形法、内点法是二次规划(QP)二次(凸)
2025-12-22 20:44:15
1096
原创 人工智能之数学基础 微积分:第四章 积分应用
积分是微积分的两大支柱之一,与导数互为逆运算。定积分不仅用于计算面积、体积,更是概率论中累积分布函数(CDF)的核心工具。本文系统讲解不定积分、定积分、微积分基本定理、数值积分方法,并重点展示其在连续型概率分布(如正态分布、指数分布)中的应用,配套完整的Python(SciPy / NumPy / Matplotlib / SymPy)代码实现与可视化。假设 PDF 为 $ f(x) = \frac{3}{4}(1 - x^2),\ -1 \leq x \leq 1 $
2025-12-21 19:59:04
1149
原创 人工智能之数学基础 微积分:第三章 基本法则
微积分中的求导法则是高效计算复杂函数导数的工具箱。本文系统讲解链式法则(Chain Rule)乘积法则(Product Rule)商法则(Quotient Rule)和隐函数求导(Implicit Differentiation),揭示其数学本质,并提供完整的Python(SymPy / NumPy)代码实现与可视化示例。法则公式应用场景链式法则复合函数、神经网络反向传播乘积法则两个函数相乘商法则分式函数隐函数求导对等式两边求导,解 $ y’ $曲线、约束优化💡建议先识别函数结构(复合?乘积?商?
2025-12-21 19:41:24
1017
原创 人工智能之数学基础 微积分:第二章 多变量微积分
多变量微积分研究多元函数($ f: \mathbb{R}^n \to \mathbb{R}^m $)的变化规律,是机器学习、优化、物理建模和经济学的核心数学工具。本文系统讲解偏导数、方向导数、梯度、Jacobian 矩阵、Hessian 矩阵等关键概念,并提供完整的Python(NumPy / SymPy / Matplotlib)代码实现与可视化。对于向量值函数 $ \mathbf{F}: \mathbb{R}^n \to \mathbb{R}^m $,其Jacobian 矩阵JF∂F1∂x。
2025-12-20 16:14:07
946
原创 人工智能之数学基础 微积分:第一章 单变量微积分
微积分是现代科学与工程的基石,而单变量微积分(函数 $ f: \mathbb{R} \to \mathbb{R} $)是其最基础、最直观的部分。本文系统讲解导数、微分、基本求导公式、高阶导数、泰勒展开等核心内容,并提供完整的Python(SymPy / NumPy / Matplotlib)代码实现与可视化。函数 $ f(x) $ 在点 $ x = a $ 处的导数f′alimh→0fah−fahf′ah→0limhfah−fa。
2025-12-20 15:58:18
1071
原创 人工智能之数学基础 概率论与统计:第四章 统计量
在获得样本数据后,我们常需对总体参数做出推断。置信区间(Confidence Interval)和假设检验(Hypothesis Testing)是统计推断的两大支柱。本文将系统讲解其原理、步骤、常见误区,并提供完整的Python(SciPy / statsmodels)代码实现与可视化。方法目的输出关键概念置信区间估计参数范围区间 [L, U]置信水平、边际误差假设检验判断假设是否成立p 值、拒绝/不拒绝显著性水平、两类错误💡现代统计建议优先报告置信区间(提供更多信息);结合效应量。
2025-12-19 21:12:00
1237
原创 人工智能之数学基础 概率论与统计:第三章 参数估计
参数估计是从观测数据中推断未知分布参数的核心任务。本文系统介绍两种主流方法——极大似然估计(Maximum Likelihood Estimation, MLE)和极大后验估计(Maximum A Posteriori, MAP),对比其思想、数学形式、优缺点,并提供完整的Python 代码实现(含可视化)。方法公式优点缺点MLE无偏(大样本)、计算简单小样本易过拟合、无先验信息MAP引入先验、抗过拟合、等价于正则化依赖先验选择、可能有偏💡实践建议数据量大 → MLE 足够;
2025-12-19 20:53:15
826
原创 人工智能之数学基础 概率论与统计:第二章 核心定理
概率论中的三大核心定理——贝叶斯定理(Bayes’ Theorem)大数定律(Law of Large Numbers)和中心极限定理(Central Limit Theorem, CLT)——构成了现代统计推断、机器学习和数据科学的理论基石。本文将深入讲解这些定理的数学含义、直观解释、应用场景,并提供完整的Python 代码实现与可视化验证。定理核心思想收敛类型应用贝叶斯定理用数据更新信念贝叶斯推断、垃圾邮件过滤、医学诊断大数定律样本均值 → 期望依概率 / 几乎必然蒙特卡洛积分、频率稳定性。
2025-12-18 21:11:50
1429
原创 人工智能之数学基础 概率论与统计:第一章 基础概念
概率论与统计是数据科学、机器学习、金融工程等领域的数学基石。本文系统介绍随机变量、常见概率分布(高斯/伯努利/多项式)、期望、方差、协方差等核心概念,并提供完整的Python(NumPy / SciPy / Matplotlib)代码实现。分布参数期望方差伯努利$ p $$ p $$ p(1-p) $二项$ n, p $$ np $$np(1-p) $多项$ n p_i $高斯$ \mu $概念公式说明期望分布的“重心”方差离散程度协方差线性相关性相关系数。
2025-12-18 20:56:50
1153
原创 人工智能之数学基础 线性代数:第五章 张量
虽然“张量”一词在物理学、微分几何中有更广义的定义,但在现代数据科学、机器学习和数值计算中,张量通常被理解为多维数组(multi-dimensional array)。本文将从这一实用视角出发,系统介绍张量的基本概念、3 维及以上张量的运算规则,并提供完整的Python(NumPy / PyTorch)代码实现。张量的“阶”指其维度数量(注意:不是矩阵的秩!阶数名称数学对象NumPy shape 示例0标量(Scalar)单个数()1向量(Vector)一维数组(5,)2。
2025-12-17 19:13:38
1406
原创 人工智能之数学基础 线性代数:第四章 矩阵分解
矩阵分解(Matrix Factorization)是将一个矩阵表示为若干个结构更简单或具有特定性质的矩阵乘积的过程。它是数值线性代数、机器学习、信号处理、优化等领域的核心工具。本文将系统介绍奇异值分解(SVD)LU 分解QR 分解和特征分解(Eigendecomposition),并提供完整的Python(NumPy/SciPy)代码实现。AUΣVTAUΣVT∗∗左奇异向量矩阵∗∗,列向量正交:**左奇异向量矩阵**,列向量正交∗∗左奇异向量矩阵∗∗。
2025-12-16 15:52:44
1092
原创 人工智能之数学基础 线性代数:第三章 特征值与特征向量
特征值(Eigenvalues)和特征向量(Eigenvectors)是线性代数中最具洞察力的概念之一,广泛应用于主成分分析(PCA)稳定性分析振动模态图神经网络PageRank算法等领域。本文将从定义、计算方法、几何/物理意义出发,并提供完整的Python 代码实现。设 $ A \in \mathbb{R}^{n \times n} $是一个方阵。若存在一个非零向量AvλvAvλv$\lambda $ 为矩阵 $ A $ 的一个特征值。
2025-12-16 02:44:47
1180
原创 人工智能之数学基础 线性代数:第二章 向量空间
向量空间(Vector Space)是线性代数的核心概念之一,它为理解线性变换、特征值、最小二乘法、主成分分析(PCA)等高级主题提供了理论基础。本文将系统介绍向量空间中的关键概念:维度、基、正交性、投影,并提供配套的 Python(NumPy/SciPy)代码实现。一个向量空间$ V $ 是一个非空集合,其元素称为向量,满足以下公理(对实数域R\mathbb{R}R加法封闭性。
2025-12-13 13:49:58
1209
原创 人工智能之数学基础 线性代数:第一章 向量与矩阵
线性代数是数学的一个重要分支,广泛应用于机器学习、计算机图形学、物理学、工程等领域。本文将系统介绍向量与矩阵的基本概念、运算规则,并提供 Python(NumPy)实现代码。定义:向量是一个有序的数字列表,可以表示为行向量或列向量。行向量:vv1v2vnvv1v2vnvv1v2⋮vnvv1v2⋮vn维度:向量中元素的个数称为其维度(如nnn维向量)。
2025-12-11 19:45:13
1180
1
原创 人工智能之数据分析 Pandas:第十一章 项目实践
本文通过一个完整的 Pandas 项目实践案例,从数据加载 → 清洗 → 探索 → 分析 → 可视化 → 输出结论,全流程掌握 Pandas 在真实场景中的应用。
2025-12-09 18:41:25
976
原创 人工智能之数据分析 Pandas:第十章 知识总结
本文是对Pandas 核心知识点的系统性总结,涵盖从基础到进阶的关键概念、常用操作和最佳实践,适合用于快速复习、面试准备或日常开发参考。优先向量化,避免循环明确数据类型,节省内存清洗先行,质量第一用.loc赋值,避免警告大文件分块处理链式编程提升可读性可视化辅助理解数据。
2025-12-09 08:14:35
1420
原创 人工智能之数据分析 Pandas:第九章 性能优化
Pandas 是一个功能强大的 Python 数据分析库,它提供了高效的数据结构和数据分析工具。然而,在处理大规模数据集时,Pandas 的性能可能成为瓶颈。
2025-12-08 20:11:09
1141
原创 人工智能之数据分析 Pandas:第八章 数据可视化
本文将从基础绘图方法、常用图表类型、高级定制、与专业库对比四个维度,系统、详细、实战化地介绍 Pandas 数据可视化的完整能力。场景推荐做法快速查看趋势df.plot()(折线图)比较分类数据检查数据分布或发现变量关系检测异常值需要美观/发表转用 Seaborn需要交互转用 Plotly💡记住Pandas 可视化 = 快速探索的“瑞士军刀”不是最终交付工具,但能极大提升分析效率!
2025-12-08 20:01:27
1134
原创 人工智能之数据分析 Pandas:第七章 相关性分析
相关性分析(Correlation Analysis)是探索变量之间线性或非线性关系的重要手段,广泛应用于特征选择、业务洞察、建模前分析等场景。Pandas 提供了简洁高效的工具来计算和可视化相关性。本文将从理论基础、Pandas 实现、可视化、进阶技巧四个维度,系统、深入、实战化地介绍 Pandas 相关性分析的完整流程。相关性衡量两个变量之间的关联程度和方向正相关:一个变量增大,另一个也倾向于增大(如身高 vs 体重)负相关:一个变量增大,另一个倾向于减小(如广告投入 vs 跳出率)无相关。
2025-12-06 20:46:07
1002
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅