自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 随机森林详解

随机森林(Random Forest, RF)是一种基于集成学习的算法,通过组合多棵决策树的预测结果来提升模型性能。随机森林采用了 Bagging(Bootstrap Aggregating) 方法,即通过 并行 训练多个独立的决策树,并将它们的预测结果进行集成,从而减少模型的方差并提高稳定性。

2025-03-29 22:29:14 899

原创 词语转化为词向量及预训练模型

和是自然语言处理(NLP)领域中的两项革命性技术,它们使得计算机能够更好地理解和生成语言。随着深度学习技术的发展,词向量和预训练模型逐渐成为了构建强大语言模型的核心技术。在 NLP 任务中,词汇通常被视为独立的单元进行处理。然而,传统的词汇表示方法(如独热编码)未能捕捉词与词之间的语义关系,导致了性能瓶颈。为了解决这个问题,词向量和预训练模型技术应运而生。

2025-03-29 16:44:00 965

原创 决策树(Decision Tree)详解

策略时机复杂度控制风险计算效率预剪枝构建时提前终止欠拟合高后剪枝构建完成后代价复杂度优化过拟合(较轻)低算法分裂标准树结构特征处理剪枝机制ID3信息增益多叉树仅离散特征无C4.5信息增益比多叉树离散+连续后剪枝CART基尼指数/MSE二叉树离散+连续代价复杂度剪枝。

2025-03-29 10:43:02 1056

原创 支持向量机(SVM)详解

这篇笔记是作者根据知乎上的几篇相关文章整理而成,由于时间较久,作者已记不清具体是哪些文章。为了更深入地理解支持向量机(SVM),作者认为首先应对拉格朗日方法有透彻的理解。拉格朗日方法在优化问题中具有重要作用,特别是在SVM模型的构建过程中,它是核心的数学工具。因此,深入掌握拉格朗日乘数法及约束优化问题,对于全面理解SVM至关重要。

2025-03-27 22:09:08 1702

原创 自相关性的检验及解决方法

自相关性描述了时间序列中同一变量在不同时间点的相关性。具体而言,它是通过计算时间序列与其自身在不同滞后期的相关性来度量的。例如,股票价格的今日收盘价可能与昨日收盘价存在显著相关性。概念公式/方法说明自相关系数ρk∑yt−yˉyt−k−yˉ∑yt−yˉ2ρk​∑yt​−yˉ​2∑yt​−yˉ​yt−k​−yˉ​​衡量时间序列滞后相关性DW 检验统计量DW∑et−et−12∑e。

2025-03-27 20:09:07 3718

原创 异常值检测与处理

因变量 y 的异常值观测值明显偏离模型预测值(如残差过大)。可能导致回归系数估计偏差、标准误差失真。自变量 x 的异常值自变量取值显著偏离其他观测值(离群值)。可能成为高杠杆点(High Leverage Point),对模型产生强影响。自变量 x 的异常值通常是指那些显著偏离其他观测值的数据点(又称为离群值)。高杠杆值(高hiih_{ii}hii​对回归系数的估计产生较大影响。模型对这些点的依赖性增强(称为高影响力点)。概念公式/判定标准说明标准化残差∣r。

2025-03-27 17:11:54 1078

原创 多重共线性

在回归分析中,多重共线性(Multicollinearity)是自变量之间存在高度线性相关性的现象。它可能导致模型参数估计不稳定、方差增大,甚至使模型失去解释能力。本文将系统介绍多重共线性的影响、检测方法及解决方案,并附带相关技术原理的详细说明。

2025-03-27 14:52:33 1648

原创 机器学习介绍

机器学习作为人工智能的核心技术,涵盖了从数据预处理到模型评估的完整流程。本文系统梳理分类、回归、聚类三大任务的关键算法,以及模型优化和评估的核心方法,为开发者提供全面的技术指南。

2025-03-27 12:01:16 2056

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除