- 博客(14)
- 收藏
- 关注
原创 机器学习速成笔记week9:决策树ID3、C4.5和CART的底层逻辑
决策树是一种用于分类和回归的树形模型,通过递归选择最优特征构建内部节点和叶节点,实现对数据的分类。其核心流程包括特征选择、决策树生成和剪枝。特征选择常用信息增益或基尼指数衡量特征分类能力。ID3和C4.5算法分别使用信息增益和信息增益比,后者解决了连续特征处理和过拟合问题。CART算法采用二叉树结构和基尼指数,适用于分类和回归。决策树容易过拟合,需通过剪枝优化模型复杂度。不同算法各有优劣,需根据具体需求选择。
2026-01-08 18:44:06
869
原创 解决markdown上传优快云无法显示图片的问题
本人经常在Typora上写markdown文档,所以图片的存储地址一直在本地,想要把markdown上传到csdn和知乎就需要重新上传图片,非常的麻烦。但是我可以把Typora的markdown文档export为word格式导入到知乎,这样知乎既能显示文字格式也能显示图片,非常的方便,而优快云不可以,于是搜集资料,发现可以把图片存储在云上,比如GitHub和gitee等,这样可以直接引用url格式而不是本地地址。
2025-12-17 13:19:18
362
原创 在jupyter notebook中使用R语言
Rstudio是R环境的专用编辑器,就像pycharm是python的专用编辑器,但是电脑上的编辑器也快十几个,而且经常用python和R,换来换去很麻烦,于是想把R加载到jupyter notebook中使用,整理教程后记录如下,方便日后使用。安装R内核后,即可在jupyter中使用。我使用的是MacOS12。
2025-12-17 12:41:28
108
原创 如何卸载/更新Mac上的R版本
Mac上的R版本还是四五年前的老版本,最近发现很多函数包都不支持,想更新电脑上的R版本,担心电脑R装的版本太多会互相冲突,并且留下很多冗余的垃圾,查询教程后整理如下,方便以后使用。
2025-12-16 15:31:47
279
原创 R语言下载catboost和UBL失败
使用install.packages(‘catboost’),原因是当前版本R的函数包里面没有包含catboost,显示当前版本的R语言和catboost不适配。需要进入catboost的官网下载安装包。我选择把包先下载到本地,然后使用R语言的。devtools工具安装。我使用的MacOS12。
2025-12-16 15:25:13
204
原创 机器学习速成笔记week8:K近邻与朴素贝叶斯
本文介绍了两种经典机器学习算法:K近邻法(KNN)和朴素贝叶斯分类器。KNN通过计算待分类点与训练集中k个最近邻的距离进行分类,核心要素包括距离度量、k值选择和分类决策规则。为提高搜索效率,可采用kd树数据结构进行优化。朴素贝叶斯基于贝叶斯定理和特征条件独立假设,通过先验概率和条件概率计算后验概率进行分类,适用于文本分类等场景,采用拉普拉斯平滑处理零概率问题。两种方法分别代表判别式和生成式分类器的典型实现。
2025-11-26 21:12:08
756
原创 机器学习速成笔记week7:搞懂支持向量机
本文介绍了支持向量机(SVM)的核心概念及其数学原理。SVM是一种基于间隔最大化的线性分类器,通过硬间隔或软间隔处理线性可分或近似线性可分数据,并利用核技巧解决非线性问题。关键点包括: 函数间隔与几何间隔:几何间隔是点到超平面的真实距离,SVM通过最大化几何间隔提高鲁棒性。 支持向量:距离超平面最近的样本点决定了决策边界,使SVM对小样本数据表现良好。 间隔最大化:SVM通过优化目标函数最小化参数向量的范数,确保决策边界与样本点间的最大间距。 数学推导:通过投影分析,解释了为何SVM倾向于选择参数范数较小的
2025-09-10 17:46:36
634
原创 机器学习速成笔记week6:关于机器学习的一些建议
本文摘要:本文介绍了机器学习中的模型评估与改进方法,重点讨论了如何诊断和解决偏差(欠拟合)与方差(过拟合)问题。主要内容包括:1)通过训练集/测试集划分评估模型性能;2)使用交叉验证集进行模型选择;3)分析学习曲线判断偏差或方差问题;4)调整正则化参数λ来平衡模型复杂度;5)针对不同问题给出具体改进建议(如增加数据、调整特征、修改正则化程度等)。文章强调应根据诊断结果选择合适的优化方向,避免盲目尝试,从而提高模型泛化能力。
2025-09-09 18:51:19
1048
原创 python机器学习实战【附完整代码注释】:从数据科学家的角度解决问题
本文提出了一个完整的数据分析框架,包括问题定义、数据采集、预处理、探索性分析、建模与验证等步骤。以泰坦尼克号生存预测为例,演示了从数据加载到清洗的全过程。重点介绍了数据清洗的4C原则:纠正异常值、补充缺失值、创建新特征和转换数据格式。通过Python代码展示了如何处理缺失值(年龄用中位数填充、登船口用众数填充),并强调特征工程的重要性。文章指出合理的特征选择比算法本身更重要,提醒避免过度依赖技术而忽视问题本质。最后强调了模型验证和优化的必要性,以确保模型的泛化能力。
2025-08-23 18:10:58
875
原创 机器学习速成笔记week5:神经网络
无论是线性回归还是逻辑回归都有这样一个缺点,即:当特征太多时,计算的负荷会非常大。下面是一个例子,使用x1x_1x1x2x_2x2的多次项式进行预测时,可以应用的很好:使用非线性的多项式项,能够建立更好的分类模型。但是假设有非常多的特征,此时构建一个非线性的多项式模型,结果将是数量非常惊人的特征组合,即便只采用两两特征的组合x1x2x1x3x1x4x2x3x2x4x99x100x1x2x1x3x1。
2025-08-12 17:49:02
948
原创 机器学习速成笔记week4:分类问题评估与逻辑回归实战
本文摘要: 文章介绍了分类问题评估的关键指标和方法,包括分类阈值、混淆矩阵(TP/FP/TN/FN)、精确率、召回率、F1得分和ROC曲线。针对不平衡数据集,提出了准确率、召回率等指标的选择策略。随后以水稻分类为例进行Python实战演示:通过Pandas加载数据,进行统计分析和可视化(散点图、3D图),使用Keras构建逻辑回归模型。代码示例展示了数据探索、特征工程和模型构建的完整流程。
2025-07-31 21:56:40
915
原创 机器学习速成笔记week3:逻辑回归与正则化
摘要 本文介绍了逻辑回归(Logistic Regression)算法及其在分类问题中的应用。主要内容包括:1) 逻辑回归适用于二元分类问题,通过Sigmoid函数将输出限制在0-1之间,表示概率;2) 决策边界的确定方法及参数θ的作用;3) 逻辑回归的损失函数设计,与线性回归不同,采用交叉熵损失函数以避免非凸优化问题,并给出了Python实现代码。逻辑回归通过概率预测解决分类问题,是机器学习中广泛使用的基础算法之一。
2025-07-30 15:11:55
2013
原创 机器学习速成笔记week2:多变量线性回归与python实战
本文总结了多变量线性回归的核心概念和方法,并利用Keras库搭建算法进行实战应用。主要内容包括:1)多维特征的表示方法;2)多变量梯度下降算法,通过迭代优化损失函数;3)特征缩放技术(如Z-score标准化)可加速收敛;4)学习率的选择策略及影响;5)多项式回归的灵活应用;6)正规方程作为梯度下降的替代解法,7)还提供了Python实现线性回归算法,利用Keras库搭建。
2025-07-29 13:44:42
1825
1
原创 机器学习速成笔记week1:引言与单变量线性回归
本文介绍了机器学习的基本概念和单变量线性回归模型。主要内容包括:1)机器学习定义及分类,如监督学习、无监督学习、强化学习和生成式AI;2)监督学习中的回归和分类任务;3)无监督学习的聚类方法;4)单变量线性回归建模过程,包括假设函数和损失函数;5)常用损失函数类型及其计算公式。文章通过房价预测等实例,阐述了如何建立和优化机器学习模型。
2025-07-27 15:33:18
2137
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅