- 博客(213)
- 收藏
- 关注
原创 【机器学习】案例1.3——基于朴素贝叶斯实现辱骂性文本检测
人工审核辱骂文本效率低、成本高,而朴素贝叶斯算法具有原理简单、计算高效、对小规模文本数据适应性强的特点,非常适合轻量级文本分类场景。本项目基于人工构造的6条文本样本(含标签),训练朴素贝叶斯分类器,实现对新文本的辱骂性判定。文本分类是自然语言处理(NLP)的核心任务,广泛应用于内容审核、垃圾邮件识别、情感分析等场景。:通过朴素贝叶斯算法,自动区分包含辱骂词汇的文本(标注为1)和正常文本(标注为0)。对所有类别相同,比较时可忽略)
2025-12-23 12:00:30
865
原创 【环境配置】Linux、docker、SSH
本文从基础概念→核心操作→语法表格→实战案例四个层面,系统梳理了Linux、SSH、Docker的关键知识,重点突出三者的结合使用场景(远程服务器部署容器化应用),适配你的计算机视觉(目标检测、OCR)研究方向。建议先掌握Linux基础命令,再熟悉SSH远程连接,最后深入Docker容器化部署,逐步构建“本地开发→远程部署→多容器协作”的完整技术链路。
2025-12-23 11:49:51
726
原创 【机器学习】案例1.2——文本分类——20个新闻组(20newsgroups)
20个新闻组(20newsgroups)是自然语言处理(NLP)和机器学习领域的经典文本分类数据集,包含20类新闻文本,本项目选取其中4类(无神论、宗教讨论、计算机图形学、太空科学)作为研究对象。
2025-12-23 11:25:42
628
原创 【机器学习】案例1.1——贝叶斯算法实现鸢尾花数据集分类
鸢尾花(Iris)数据集是机器学习领域最经典的分类基准数据集之一,由统计学家Fisher于1936年提出,包含150条样本(3类鸢尾花品种:山鸢尾、变色鸢尾、维吉尼亚鸢尾,每类50条),每条样本涵盖4个核心形态特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度。
2025-12-23 10:32:25
442
原创 【机器学习】1.贝叶斯分类
贝叶斯算法的本质是通过先验概率和似然概率计算后验概率Pθ∣XPX∣θ⋅PθPXPθ∣XPXPX∣θ⋅PθPθP(\theta)Pθ:先验概率(模型参数θ\thetaθ的初始信念,如“纺织缺陷A的出现概率为10%”);PX∣θPX∣θ:似然概率(给定参数θ\thetaθ时,观测数据XXX的概率,如“若缺陷为A,观测到纹理特征X的概率”);PXP(X)PX。
2025-12-23 09:22:00
851
原创 【机器学习】案例4.1——XGBoost解决二分类任务(皮马印第安人糖尿病数据集)
【代码】【机器学习】案例4.1——XGBoost解决二分类任务(皮马印第安人糖尿病数据集)
2025-12-17 21:45:46
905
原创 【机器学习】4.XGBoost(Extreme Gradient Boosting)
XGBoost的核心是梯度提升+正则化优化区分任务类型(分类/回归/排序),选择对应objective;优先使用Scikit-learn接口快速上手,原生API用于自定义训练;结合交叉验证和早停避免过拟合,通过特征重要性分析优化特征。通过以上系统梳理和案例实践,可覆盖XGBoost的核心用法,后续可结合具体业务场景(如风控、推荐、预测)进一步调优。
2025-12-17 21:27:21
886
原创 【机器学习】案例3.1——GBDT+LR模型融合
为结合两者优势,工业界提出「GBDT+LR」组合方案:用GBDT做「自动特征工程器」,将原始特征映射为离散的非线性特征,再输入LR分类。本项目以鸢尾花数据集为示例,将多分类任务改造为二分类,实现该组合模型并验证其性能。核心思路:利用GBDT的叶子节点索引做特征编码,将非线性特征转化为LR可处理的离散特征,最终用LR完成分类。在机器学习分类任务中,单一模型难以同时兼顾。
2025-12-16 21:47:46
232
原创 【机器学习】3.GBDT(梯度提升决策树)
GBDT是集成学习的核心算法,核心是梯度下降+决策树串行拟合残差入门用sklearn的,语法简单易上手;工业界优先选择XGBoost/LightGBM,兼顾效率与性能;调优核心是平衡“学习率-迭代次数-树复杂度-正则化”,避免过拟合。
2025-12-16 21:30:38
992
原创 【机器学习】案例2.3——AdaBoost(自适应提升)进行二分类任务
是集成学习中Boosting家族的经典算法,它通过迭代训练弱分类器,并根据每个弱分类器的预测效果动态调整样本权重(错分样本权重提高,正确分类样本权重降低),最终将所有弱分类器加权融合为强分类器。集成学习是机器学习领域的核心技术之一,其核心思想是通过组合多个“弱分类器”(性能略优于随机猜测的简单模型)的预测结果,形成一个“强分类器”,从而显著提升模型的泛化能力。
2025-12-16 09:44:31
405
原创 【机器学习】案例2.2——集成学习(Ensemble Learning)进行鸢尾花分类
鸢尾花数据集包含3类鸢尾花(Setosa、Versicolor、Virginica)共150条样本,每条样本含4个特征(花萼长度/宽度、花瓣长度/宽度)。作为提升模型性能的核心方法,通过组合多个弱学习器(基模型)的预测结果,能有效降低单一模型的偏差和方差,显著提升分类任务的准确率与稳定性。对比单模型、投票模型、Bagging模型的准确率,验证集成学习的性能优势;机器学习中,单一分类模型(如逻辑回归、决策树、SVM等)往往存在泛化能力不足、对数据分布敏感或易过拟合/欠拟合的问题。
2025-12-16 09:39:34
570
原创 【机器学习】案例2.1——随机森林(Random Forest)进行鸢尾花分类
鸢尾花(Iris)数据集是机器学习领域经典的,由Fisher于1936年提出,常被用于验证分类算法的有效性。该数据集包含3类鸢尾花(山鸢尾、变色鸢尾、维吉尼亚鸢尾),共150条样本,每条样本包含4个数值型特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度。
2025-12-16 09:26:08
503
原创 【机器学习】2.集成学习、随机森林与AdaBoost
集成学习(Ensemble Learning)是将多个基学习器(如决策树、逻辑回归等)通过特定策略组合,以提升模型的泛化能力(准确性、稳定性)的方法。“弱学习器集成强学习器”,通过降低方差(Bagging)、降低偏差(Boosting)或融合优势(Stacking),解决单一模型的过拟合/欠拟合问题。集成学习的核心是“弱学习器集成强学习器”,Bagging降方差、Boosting降偏差、Stacking融优势;随机森林是Bagging的代表,抗过拟合、效率高,是工业界基准模型;
2025-12-15 17:54:59
674
原创 【机器学习】案例1.2——决策树进行鸢尾花分类
鸢尾花(Iris)数据集是机器学习领域的经典基准数据集,由统计学家Fisher于1936年提出,是多分类任务的入门级数据集。该数据集包含150个样本,对应3类鸢尾花(山鸢尾/Iris-setosa、变色鸢尾/Iris-versicolor、维吉尼亚鸢尾/Iris-virginica),每类各50个样本;每个样本包含4个数值型特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度。等优点,但核心痛点是:当决策树的深度过深时,模型会过度拟合训练数据的细节(如噪声),导致在测试集上的泛化能力下降(过拟合)。
2025-12-15 11:15:34
259
原创 【机器学习】案例1.1——决策树进行非线性回归任务(正弦曲线拟合)
决策树是机器学习中经典的非参数模型,可同时支持分类和回归任务(决策树回归)。在回归场景中,决策树通过递归划分特征空间,将每个划分后的子区域映射为该区域内样本的均值(以MSE为划分准则),从而实现对连续值的预测。该结果验证了决策树深度对拟合效果的核心影响:深度需根据数据复杂度合理选择,过浅欠拟合、过深过拟合。
2025-12-15 10:43:58
313
原创 【机器学习】1.决策树(Decision Tree)
决策树是机器学习中“入门简单、深入复杂”的核心算法,核心在于特征选择、树的构建和剪枝三大步骤。掌握ID3/C4.5/CART的差异、特征选择指标的计算逻辑、剪枝策略的应用,能为后续学习集成算法打下坚实基础。实践中,需根据数据特点选择算法(分类用C4.5/CART,回归用CART),通过调优预剪枝参数(max_depth、min_samples_leaf)或后剪枝(CCP)避免过拟合,同时利用可视化工具(plot_tree)挖掘决策规则,发挥其可解释性优势。
2025-12-15 10:24:51
980
原创 【机器学习】3.PCA降维与SVD
PCA是无监督线性降维算法,核心思想是:找到一组正交的“主成分”(数据方差最大的方向),将数据投影到这组主成分构成的低维空间,实现降维且信息损失最小。SVD是通用的矩阵分解方法,适用于任意矩阵(非方阵、奇异矩阵均可),是PCA的底层实现(更稳定)。PCA是降维的核心算法,核心是“方差最大”的主成分投影;SVD是通用矩阵分解工具,是PCA的高效实现方式(更稳定);实战中优先使用sklearn的PCA类(底层已用SVD),手动实现可加深对原理的理解;
2025-12-15 10:19:50
548
原创 【机器学习】案例1.6——K-Means聚类,实现图像压缩
思想,采用K-Means聚类算法实现图像压缩:将图像中相似的颜色像素聚为一类,用聚类中心(码本)替代原像素的颜色值,仅存储每个像素对应的聚类标签(而非完整RGB值),从而大幅降低存储体积;解压时通过标签索引聚类中心,重构出原始图像的近似版本。传统图像存储中,每个像素的RGB三通道各占8位(共24位/像素),高分辨率图像会占用大量存储空间,且传输时消耗更多带宽。
2025-12-09 16:30:04
284
原创 【机器学习】案例2.2——GMM实现声音识别
Delta(差分)特征则补充特征的动态变化信息(如语速、语调),两者结合可提升特征的区分性。该文件读取训练集音频路径,为每个说话人提取5个音频的特征,训练16分量的GMM模型,并将模型保存到指定路径,供后续测试使用。测试阶段需加载训练好的GMM模型,对测试音频提取特征后,计算特征在每个模型下的对数似然值(似然值越高,说明特征属于该模型的概率越大),最终选择似然值最大的模型作为识别结果。说话人识别的核心目标是通过语音信号的声学特征区分不同说话人(或识别性别),广泛应用于身份验证、语音助手、安防监控等场景。
2025-12-09 16:15:43
463
原创 【机器学习】案例2.1——GMM实现花卉图像聚类
图像分割是将图像像素划分为具有相似特征(如颜色、纹理)的像素集合的核心技术,是花卉识别、目标提取、图像检索等高级视觉任务的基础。核心目标:将花卉图像的像素按颜色特征自动划分为4个类别,实现图像区域的无监督分割,直观展示图像的颜色/区域划分结果。① 图像预处理:将三维RGB图像(高度×宽度×3)展平为二维数组,适配GMM的输入格式;② 模型训练:构建GMM模型,学习像素RGB值的多维高斯分布特征;④ 结果可视化:将聚类结果重塑为原始图像尺寸,直观展示分割效果。
2025-12-09 10:34:03
337
原创 【机器学习】2.EM算法和GMM高斯混合模型
EM(Expectation-Maximization)是针对含隐变量的概率模型的参数估计迭代算法,核心是通过交替执行“期望步(E步)”和“最大化步(M步)”,逼近含隐变量模型的最大似然解(MLE)。GMM是由KKKEM算法是处理含隐变量模型参数估计的通用框架,GMM是EM算法的经典应用,核心是通过“责任”的交替计算与参数更新拟合多峰分布。相比K-Means,GMM能输出概率分布,更贴合真实数据的统计特性,是机器学习中聚类、密度估计、生成模型的重要工具。
2025-12-09 10:32:17
814
原创 【Python模块】9.beautifulsoup4
查找find_all()find()(通用)、select()(CSS语法)是高频方法;遍历:通过contentsparent等遍历树形结构;操作:文本/属性的获取/修改、节点的增删改;辅助prettify()格式化、new_tag()创建节点。区分find_all()(列表)和find()(单个节点);掌握CSS选择器(前端通用语法,复用性高);注意class_的使用(避免Python关键字冲突);解析器优先选择lxml(效率+兼容性最优)。
2025-12-08 20:44:06
1000
原创 【Python模块】8.request
核心方法:GET/POST 是高频用法,GET 查资源、POST 提交资源,PUT/PATCH 改资源,DELETE 删资源;响应处理:重点掌握(状态判断)、(内容解析)、content(二进制文件);高级场景:Session 保持会话、timeout 防卡死、proxies 换IP、files 传文件;异常处理:必须捕获请求异常,避免程序崩溃。建议结合(测试接口)多练习,快速掌握各类用法!
2025-12-08 20:41:51
873
原创 【Python模块】7.csv
import csv# 注册自定义方言:|分隔符、单引号包裹、忽略分隔符后空格# 列出所有方言print('已注册方言:', csv.list_dialects()) # 包含excel、excel-tab、my_dialect等# 使用自定义方言写入# 使用自定义方言读取print(row)# 注销方言print('注销后方言:', csv.list_dialects()) # 不再包含my_dialect输出。
2025-12-08 20:38:46
932
原创 【Python模块】6.shutil
shutil(Shell Utilities)是Python标准库中用于的核心模块,补充了os模块的基础文件操作能力,聚焦于文件复制、移动、删除、归档(压缩/解压)、权限管理等场景。以下按功能分类,详细梳理所有核心方法的语法、参数、案例,确保覆盖全部关键知识点。
2025-12-08 20:36:12
730
原创 【Python模块】5.json
当默认的序列化/反序列化规则无法满足需求(如处理datetime、自定义类),可继承实现自定义规则。*,):# 重写此方法:处理不支持的类型,返回可序列化对象type。
2025-12-08 20:32:33
764
原创 【Python模块】4.sys
sys模块是Python内置的核心模块,提供了一系列与Python解释器相关的函数和变量,是编写系统级、交互式或需要深度控制解释器行为的Python程序的必备工具。使用前需通过import sys导入。
2025-12-08 20:30:08
645
原创 【Python模块】3.os
路径处理abspath()exists()isfile()isdir();目录操作getcwd()chdir()mkdir()makedirs()listdir();环境变量os.environgetenv();跨平台适配os.nameos.sep。掌握这些方法即可满足日常开发中90%以上的操作系统交互需求,复杂场景可结合subprocess(进程)、shutil(高级文件操作)等模块使用。
2025-12-08 20:26:32
833
原创 【Python模块】2.time/datetime
time模块适合底层时间操作(计时、延时、时间戳转换);datetime模块适合业务层时间处理(日期运算、格式化、时区转换),是实际开发的首选;strftime(格式化)、strptime(解析)、timedelta(时间间隔)。通过以上内容,你可以覆盖time和datetime模块的所有核心用法,解决Python中99%的时间处理场景。
2025-12-08 20:22:30
630
原创 【Python模块】1.math
math模块仅支持浮点数运算,输入整数会自动转为float,复数需用cmath;取整函数(floor/ceil/trunc)需注意返回类型(前两者float,trunc int);三角函数参数为弧度,需结合radians/degrees转换角度;高版本Python(3.9+/3.10+)新增了comb/perm/lcm等函数,使用前需确认版本;精确求和优先用,避免sum()的浮点精度问题。通过以上分类梳理,可覆盖math模块的所有核心方法,结合案例练习能快速掌握其使用场景。
2025-12-08 20:14:54
540
原创 【Python模块】0.初识模块
模块的创建、多种导入方式(重点);模块特殊属性(__name____doc__等);内置模块(math/sys/os)和第三方模块(requests)的使用;包的结构与导入;动态导入、重载等高级用法;遵循最佳实践,提升代码可维护性。掌握模块和包的使用,是Python从“脚本编写”到“项目开发”的关键一步。
2025-12-08 20:08:06
723
原创 【机器学习】案例1.5——KMeans聚类,实现图像压缩
数字图像的RGB色彩空间中,每个像素由红、绿、蓝三个通道(各0-255取值)组成,理论上包含1600多万种颜色。但实际图像中大量像素的颜色存在高度冗余,直接存储所有像素的完整颜色信息会占用过多存储空间。成为图像压缩的关键技术之一:通过减少图像中颜色的数量,在视觉效果损失可控的前提下降低存储成本。
2025-12-06 16:04:26
228
原创 【机器学习】案例1.4——谱聚类(Spectral Clustering)
谱聚类(Spectral Clustering)是一种基于图论的聚类方法,核心思想是将数据点映射到“图的特征空间”,把聚类问题转化为“图的分割问题”(使同一子图内的点相似度高,不同子图间的点相似度低)。聚类是无监督机器学习的核心任务,其目标是将相似的数据点归为一类,不相似的归为不同类。的数据(如环形、螺旋形)聚类效果极差——因为K-Means假设聚类中心是数据的“质心”,而环形数据的质心位于圆环中心,无法区分不同环的样本。对聚类效果的影响,验证谱聚类处理非凸数据的有效性。
2025-12-06 15:57:13
229
原创 【机器学习】案例1.3——聚类结果的有效性评估
通过计算行业通用的核心指标(同质性、完整性、V-Measure、调整兰德指数),直观展示不同聚类结果与真实标签的契合度,帮助理解各评估指标的计算逻辑、取值含义及实际场景下的表现差异。聚类是无监督学习的核心任务,目标是将数据划分为“簇内相似、簇间相异”的簇群。但聚类结果的优劣需要客观指标量化评估——尤其是当存在。该代码通过多场景测试,清晰验证了聚类评估指标的核心特性,可作为理解聚类效果评估的基础示例。时,需衡量聚类结果与真实类别标签的匹配程度。
2025-12-06 15:55:00
313
原创 【机器学习】案例1.2——DBSCAN聚类
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种。在无监督机器学习领域,聚类是核心任务之一,用于将无标签数据按内在相似性划分为不同簇。该代码通过系统化的参数测试和可视化,清晰展示了DBSCAN的核心特性,为实际场景中调参提供了直观参考。)对聚类结果的影响,直观展示算法的参数敏感性和聚类效果,解决传统聚类算法的局限性验证问题。本项目通过生成模拟数据集,系统验证DBSCAN核心参数(邻域半径。
2025-12-06 15:49:04
350
原创 【机器学习】1.聚类算法
优先尝试简单算法:KMeans(大规模/凸簇)、DBSCAN(非凸/噪声);调参核心:KMeans用肘部法则/轮廓系数选K,DBSCAN调ɛ和MinPts;数据预处理:数值特征标准化,分类特征用K-Modes;评估:无标签用轮廓系数,有标签用ARI/AMI。聚类算法的选择需结合数据特性(类型、规模、分布)和业务需求,实战中建议多算法对比,通过评估指标确定最优方案。
2025-12-06 11:27:14
284
原创 【机器学习】案例4.3——结合TensorFlow、梯度下降求解SVM
问题类型解决方案SVM参数求解复杂利用TensorFlow自动求导和梯度下降,替代手动推导SMO算法,简化优化过程过拟合风险引入L2正则化(软间隔),平衡分类间隔和模型复杂度模型效果验证可视化分类边界、训练/测试精度曲线、损失收敛曲线,直观验证模型性能数据适配标签二值化、维度转换,适配SVM的标签格式和TensorFlow的输入要求'''进程已结束,退出代码为 0'''简洁版import osplt.show()plt.show()plt.show()
2025-12-06 11:07:52
248
原创 【机器学习】案例4.2——改进版SMO算法求解SVM
技术手段解决的核心问题具体效果启发式α选择基础SMO收敛慢单次迭代优化效果最大化,收敛提速核函数映射线性不可分数据无法处理非线性数据→高维线性可分误差缓存重复计算样本误差Ei,效率低减少冗余计算,降低时间复杂度核矩阵预计算迭代中重复计算核函数值核函数值一次计算,多次调用交替遍历全量/非边界样本仅遍历全量样本效率低,仅遍历边界易局部最优兼顾覆盖性和效率,避免局部最优软间隔SVM(松弛变量C)硬间隔SVM无法处理噪声/非线性数据允许少量样本越界,平衡间隔与错误'''
2025-12-06 10:47:33
392
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅