自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 机器学习——学习笔记:卷积神经网络CNN

例:用 “边缘检测卷积核” 滑动图片,所有边缘区域会输出高值,非边缘区域输出低值,最终得到一张 “边缘特征图”。训练中,模型会根据 “预测误差” 调整卷积核的数值,直到每个卷积核能 “精准捕捉一种特征”—— 比如有的卷积核变成 “边缘检测核”,有的变成 “颜色过滤核”,有的变成 “纹理提取核”。经过多轮 “卷积 + 池化” 后,模型得到了 “高维特征图”(比如 “猫的耳朵特征图”“眼睛特征图”),全连接层会把这些特征图 “拉成一维向量”,再通过权重计算 “整合所有局部特征”,最终输出 “属于猫的概率”。

2025-10-26 10:16:01 428

原创 机器学习——学习笔记:逻辑回归

信用卡欺诈检测(判断交易是否欺诈)、贷款违约预测(判断用户是否会逾期)—— 需解释 “为什么判定为风险”,逻辑回归的参数(权重 w)可直接说明特征影响(如 “逾期次数权重高,说明该特征对风险判断最重要”);敏感:不同特征的尺度差异(如 “年龄(0~100)” 和 “收入(0~1e6)”)会主导线性得分,需先做 “标准化”(如均值 0、标准差 1)。敏感:若特征间高度相关(如 “身高” 和 “体重”),会导致参数(w)不稳定,需先做特征筛选(如删除冗余特征);

2025-10-26 09:22:14 646

原创 机器学习——学习笔记:支持向量机

距离分隔超平面 “最近的样本点”(比如 A 类中离中线最近的 2 个学生,B 类中离中线最近的 3 个学生),这些点决定了超平面的位置(只要支持向量不变,超平面就不变,其他样本点的位置不影响结果);:允许少量样本 “跨过分隔超平面”(即分错),但会对这些分错的样本加 “惩罚项”(惩罚项越大,越不允许分错),平衡 “间隔大小” 和 “分错数量”。常用范围0.1~100,默认1.0;:在二维数据中是 “线”,三维数据中是 “面”,高维数据中是 “超平面”(SVM 的核心,用于分隔不同类别);

2025-10-25 23:38:11 592

原创 机器学习——学习笔记:LightGBM

LightGBM(Light Gradient Boosting Machine)是XGBoost的“优化升级版”,核心思想同样是“集成弱模型(决策树)形成强模型”,但通过两大关键优化实现了“更快的训练速度”和“更低的内存占用”。遍历区间:LightGBM会先把连续特征分成“若干区间(直方图)”(比如年龄分[18-25,26-35,36-45]),只需遍历区间就能找分裂点——相当于“把1000个零散数据归为10组,只算10次”,速度大幅提升。大学习率(如0.3)快但易震荡。

2025-10-17 15:08:16 883

原创 机器学习——学习笔记:XGBoost

XGBoost(Extreme Gradient Boosting)是一种集成学习算法,核心思想是"三个臭皮匠顶个诸葛亮"——通过组合多个"弱模型"(通常是决策树),形成一个"强模型"(2)并行优化:虽然树是串行训练的,但XGBoost会并行处理特征,训练速度极快(这也是"Extreme"的由来)(1)逐步纠错:每次训练新的决策树时,都专注于修正之前所有树的"错误"(通过计算损失函数的梯度)XGBoost是机器学习领域的"瑞士军刀",几乎能解决所有结构化数据(表格数据)的问题:。

2025-10-16 11:51:55 694

原创 机器学习——学习笔记:随机森林

随机森林则像“100个不同背景的影评人”:有人关注演员,有人关注剧情,有人关注评分——每个人(每棵树)独立给出判断,最后通过“投票”(分类任务)或“平均”(回归任务)得到最终结果。通过这两种随机性,让每棵树的“视角”略有不同(避免“抱团犯错”),最后结合所有树的意见,得到更稳健的结果。1.减小min_samples_split(如从5→2)或min_samples_leaf(如从5→1):允许树更复杂;最适合结构化数据(CSV/Excel表格),包含数值型(如年龄、收入)和类别型(如性别、职业)特征;

2025-10-16 11:28:44 827

原创 机器学习——学习笔记:词汇理解Day2

平方误差(Squared Error)和对数损失(Log Loss,又称交叉熵损失)是机器学习中两种最常用的损失函数,它们的核心作用是量化 “模型预测值” 与 “真实值” 之间的差距,但适用场景和计算逻辑有显著差异。2、回归任务不用对数损失:回归的目标是连续数值(如 100、200),无法用 “概率分布” 表示,对数损失的公式(基于 log 函数)也不适用于非概率的输出。(2)学习率太大(如 η=10):就像大步跨跳,可能一步跨过山底,甚至跑到对面山坡上(参数更新幅度过大,损失值震荡甚至上升,无法收敛);

2025-10-14 16:24:33 1075

原创 机器学习——学习笔记:词汇理解Day1

而均方误差(MSE)是 “数值差异的平方”,用它计算概率的损失会有问题:比如 “真实概率 = 1,预测概率 = 0.9” 和 “真实概率 = 0.5,预测概率 = 0.4”,MSE 都是 0.01,但前者是 “小误差”,后者是 “相对大误差”,交叉熵能更精准地捕捉这种差异。多分类中,真实标签需用 “独热编码” 表示(如 3 个类别时,“类别 A= [1,0,0]”,“类别 B= [0,1,0]”),模型输出的是 “每个类别的概率分布”(记为p₁, p₂, ..., pₖ,总和为 1)。

2025-10-13 16:56:21 722

原创 贷款违约风险预测——Lending Club数据

贷款等级为B和C的人数最多,符合基本的常识:信用等级较高的贷款人可以通过银行等渠道获得贷款,而信用等级较低的贷款人难以获得贷款。从地区来看,亚拉巴马州(AL)的不良贷款率最高(11.71%),西弗吉尼亚州(WV)的不良贷款率最低(4.91%)在各贷款类别中,小型商业贷款的不良贷款率最高(15.48%),而教育贷款和婚贷的不良贷款率最低(0)各贷款等级的不良贷款率随贷款等级变低而逐渐增加,符合基本常识。数据预处理后,对其进行简单的分析,然后筛选特征变量建模分析。目标变量y为贷款状态,并对其进行编码。

2025-05-01 17:18:07 1102

原创 机器学习——学习DAY2:降雨量预测

目标:预测每天的降雨概率(0-1变量)字段:id(唯一识别特征)及11个特征变量提交结果:id对应的降雨概率评价方法:ROC。

2025-04-02 21:32:03 280

原创 将图片由彩色转换为线条图

通过修改参数可调节图片呈现。

2025-04-01 22:04:00 169

原创 机器学习——学习DAY1:金融风险预测模型

发现训练集结果计算出来的AUC值与测试集结果计算出来的AUC值差别较大,可能存在过拟合问题,通过执行下列代码进行验证。尝试上调学习率、叶子数等以及删除冗余变量等方法进行改进。

2025-04-01 21:52:59 558

原创 量化学习——策略复现

本次复现的量化策略来自国元证券的《如何用ETF构造绝对收益组合——基于风险预算的资产配置策略》

2025-04-01 21:20:51 1000

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除