茶桁
这个作者很懒,什么都没留下…
展开
-
SHAP 的局限性
SHAP 如何受到特征依赖性、因果推理和人为偏见的影响SHAP 是最流行的 IML/XAI 方法。它是一种强大的方法,可用于了解我们的模型如何进行预测。但不要让受欢迎程度说服你。SHAP 仍有局限性。使用该方法得出结论时需要牢记这些局限性。我们将讨论 4 个重要的限制:第一个来自 SHAP 包本身第二个来自于 SHAP 值的计算方式——我们假设特征是独立的第三个是我们如何使用它们——不是为了因果推理最后一点来自于人类使用它们的方式——我们编造故事。原创 2024-10-17 15:32:11 · 185 阅读 · 0 评论 -
使用 Seaborn 热图的 5 种方法(Python 教程)
我们先来讨论一下热图是什么以及为什么热图如此有用。你可以在图 1 中看到一个示例。y 轴上有变量 1。在这种情况下,变量 1 可以采用不同的 4 个值。也就是说,“V1-1”是变量 1 的第一个值。同样,y 轴上有变量 2。还有第三个变量。这是每个单元格内的值。每个单元格的颜色由这个变量的值决定。因此,使用热图,我们可以在 2D 平面上直观地显示 3 个变量之间的关系。这些关系可能很复杂。这就是使用颜色的原因。它可以突出显示关系的重要方面,并使它们更容易理解。我们应该记住,热图仍然有局限性。原创 2024-10-01 13:48:32 · 384 阅读 · 0 评论 -
从 Shapley 到 SHAP — 数学理解
如何计算 SHAP 特征贡献的概述[外链图片转存中…(img-T2bopJJd-1727349137092)]{:width 100}假设你(玩家 1)和朋友(玩家 2)参加了一场 Kaggle 比赛,你最终赢得了 10,000 元的一等奖。现在,你想公平地分配这笔钱。你的朋友建议你平分。但是,你的超参数调整技能更出色。你相信你应该得到更大的份额,因为你为团队做出了更多贡献。考虑到这一点,你如何公平地分配这笔钱?巧合的是,你的朋友有一台时光机。你们各自回到过去,单独重赛 Kaggle 比赛。原创 2024-09-27 07:45:00 · 158 阅读 · 0 评论 -
银行业数据科学家的 6 条经验教训
原本希望在计算机科学、统计学和机器学习领域工作。运用新方法获得独特见解,实现一切自动化。简而言之,最终成了这个职业炒作的牺牲品。我想和你们分享一下。希望我们能够摆脱炒作,提高你对数据科学家工作的理解。原创 2024-09-24 07:45:00 · 144 阅读 · 0 评论 -
PDP 和 ICE 图的终极指南
部分依赖图和单独条件期望图背后的直觉、数学和代码(R 和 Python)PDP 和 ICE 图都可以帮助我们了解我们的模型如何做出预测。使用个人显示面板我们可以将模型特征和目标变量之间的关系可视化。它们可以告诉我们某种关系是线性的、非线性的还是没有关系。同样,当特征之间存在交互时,可以使用 ICE 图。我们将深入介绍这两种方法。我们从 PDP 开始。我们将逐步向你介绍如何创建 PDP。你会发现这是一种直观的方法。即便如此,我们也将解释 PDP 背后的数学原理。然后我们继续讨论 ICE 图。原创 2024-09-20 07:45:00 · 272 阅读 · 0 评论 -
如何加速 CNN
本节课为「」第 17 节;Hi, 我是茶桁。上节课咱们讲了 MLP 到 CNN,最后提到了 CNN 加速的话题。具体 CNN 加速这个过程我们要从两个方向去看,一个是前向计算的加速,一个是反向传播的加速。我们通常说模型加速前向计算就够了,不用反向传播。并不是如此。为什么?因为如果一个模型它的训练很快的话,它前向计算其实就可以更快。比如说一个模型。为什么模型现在做不了,参数量更大,做不了更准确,就是因为我们训练速度慢,训练不出来。模型本身的潜力是很大的,但是我们没有训练出来。原创 2024-09-22 07:45:00 · 87 阅读 · 0 评论 -
使用 CatBoost 实现分类特征的 SHAP
避免对分类特征的 SHAP 值进行后处理结合 [[CatBoost]] 和 [[SHAP]] 可以提供强大的洞察力。特别是当你使用分类特征时。CatBoost 处理这些特征的方式使你更容易理解使用 SHAP 的模型。对于其他建模包,我们需要先使用 One-Hot 编码转换分类特征。问题是每个二进制变量都有自己的 SHAP 值。这使得很难看到原始分类特征的整体贡献。在 [分类特征的 SHAP](…/分类特征的 SHAP) 中,我们探讨了一种解决方案。原创 2024-09-17 07:45:00 · 247 阅读 · 0 评论 -
我们可以从黑盒模型中学到什么
使用非线性模型进行数据探索和知识生成黑盒模型可以自动模拟复杂的关系。与线性模型相比,捕捉数据中的这些趋势可以提高其准确性。然而,准确性只是好处之一。我们可以分析模型,了解它们如何做出这些预测。这可以揭示数据集中的潜在关系。在某些情况下,这些关系对我们来说可能是全新的。这就是机器学习如何成为和的工具。此外,提供以帮助调试模型。这些知识可用于我们将讨论如何从黑盒模型中学习。其中包括理解数据中的及其。原创 2024-09-13 07:45:00 · 135 阅读 · 0 评论 -
KernelSHAP vs TreeSHAP
根据速度、复杂性和其他考虑因素比较 SHAP 近似方法more[[KernelSHAP]] 和 [[TreeSHAP]] 都用于近似 [[Shapley]] 值。TreeSHAP速度更快。缺点是它只能与基于树的算法(如[[随机森林]]和 [[xgboost]])一起使用。另一方面,KernelSHAP 与模型无关。这意味着它可以与任何机器学习算法一起使用。我们将比较这两种近似方法。为此,我们将进行一项实验。这将向我们展示 TreeSHAP 实际上有多快。我们还将探讨树算法的参数如何影响时间复杂度。原创 2024-09-12 20:01:10 · 228 阅读 · 0 评论 -
06. 机器学习入门2 - 理解特征和向量
当时大家还会融入统计分析方法,后来人们就发现根据原来的这些信息提炼出一些数据,让机器自动或半自动的提炼出一些信息,然后去预测新问题。这个过程就特别像小孩学习的时候,你给他很多知识他自己去学,学完之后去解决没有见过的问题。这种解决问题的方法,后来就叫做机器学习。我们就把解决这种问题的整个方法就叫做机器学习。原创 2023-10-07 19:19:19 · 179 阅读 · 0 评论 -
Python 批量修改文件名
没办法,眼见有几种方式去做,一种是Mac自带的「自动操作」,一种是「捷径」,还有就是干脆用Python写个脚本。之类的编号,当然是序列。可是这批序列又非常的乱,比如,「数列」和「导数」给的是考前的编号,而课本上要先学习的「集合」,「逻辑」,「不等式」等又编号又很靠后。代码执行后会让你选取你要修改的文件的目录,然后会让你输入你要修改的内容,可以是正则,然后输入你要修改成的内容。打印内容中查看自己修改前和修改后的文件对比,感觉没问题了,把其中注释的两行代码打开注释,就可以完成文件修改了。原创 2023-10-17 17:56:49 · 122 阅读 · 0 评论 -
13. 机器学习 - 数据集的处理
数据量多和模型复杂其实是一回事。它背后的原因就是因为任何一个f(x)如果有很多的参数,拟合的时候随着这个参数数量越多,那么我们所需要的训练数据集也要增多。也就是说当模型非常复杂,参数特别多,只要数据量特别大,那就不算多。就说现有的数据量对于参数不够,训练力度不够。原创 2023-10-25 13:08:48 · 922 阅读 · 0 评论 -
02. 人工智能核心基础 - 导论(1)
接下来是一些关于学习的一些建议。这第一节课,我要跟大家带来一个很很重要的内容,就是我们这个课程叫做人工智能课程,那么咱们需要花费一些篇幅,来搞定的一个问题,就是人工智能到底是什么。你有没有想过人工智能是什么?这个世界上现在对于人工智能到底是什么几乎可以说每一个人的定义都不一样。不同的人,每一个同学其实都有一个自己的认识,每一个人其实对于人工智能的定义其实都不太一样。原创 2023-09-27 12:58:24 · 563 阅读 · 0 评论 -
人工智能核心基础 - 规划和概要
这一节课咱们先不着急直接开始课程,而是聊一下本次课程的一个规划。在整个课程规划中,我们将会直接从机器学习开始入手,进入深度学习,然后开始接触RNN、CNN以及三大方向:NLP、CV和BI。原创 2023-09-26 07:00:00 · 351 阅读 · 0 评论 -
12. 机器学习 - 拟合
假如有一个模型, 这个模型在训练数据的时候效果很好, 体现在loss很小, 或者说precision很高, accuracy也比较好, 但是在实际情况下, 用到没有见过的数据的时候,效果就很差, 那么这个就过拟合了.原创 2023-10-23 10:57:51 · 709 阅读 · 0 评论 -
16. 机器学习 - 决策树
Hi,你好。我是茶桁。在上一节课讲SVM之后,再给大家将一个新的分类模型「决策树」。我们直接开始正题。原创 2023-11-02 12:11:19 · 838 阅读 · 2 评论 -
18. 深度学习 - 从零理解神经网络
我们终于又开启新的篇章了,从今天这节课开始,我们会花几节课来理解一下深度学习的相关知识,了解神经网络,多层神经网络相关知识。并且,我们会尝试着来打造一个自己的深度学习框架。原创 2023-11-09 16:20:09 · 1464 阅读 · 2 评论 -
03. 人工智能核心基础 - 导论(2)
上一章中,我们谈论了人工智能在时间维度上的不同时间不同的侧重点,这只是一个片面的方面。当然除此之外,我们还要从其他方向来认识人工智能,才能更加的全面。那下面,我们就分别从方法论,问题范式和研究对象来分别认识一下人工智能,看看有没有什么不一样的心得。原创 2023-09-29 06:55:22 · 369 阅读 · 0 评论 -
26. 图论 - 树
树其实是图的一种,首先呢它是一个连通图,是一个不含圈的连通图。什么叫连通图呢?连通图其实很简单,就是任意两个顶点,都有一条路径能使它们相连。原创 2023-09-25 08:59:27 · 1008 阅读 · 0 评论 -
17. 机器学习 - 随机森林
Hi,你好。我是茶桁。我们之前那一节课讲了决策树,说了决策树的优点,也说了其缺点。决策树实现起来比较简单,解释解释性也比较强。但是它唯一的问题就是不能拟合比较复杂的关系。后来人们为了解决这个问题,让其能够拟合更加复杂的情况,提出来了一种模型,这种模型就叫做随机森林。原创 2023-11-05 13:39:46 · 387 阅读 · 1 评论 -
07. 机器学习入门3 - 了解K-means
我们在机器学习入门已经学习了两节课,分别接触了动态规划,机器学习的背景,特征向量以及梯度下降。本节课,我们在深入的学习一点其他的知识,我们来看看K-means.原创 2023-10-09 07:00:00 · 140 阅读 · 0 评论 -
11. 机器学习 - 评价指标2
上一节课,咱们讲到了评测指标,并且在文章的最后提到了一个矩阵,我们就从这里开始。原创 2023-10-20 07:00:00 · 619 阅读 · 1 评论 -
10. 机器学习-评测指标
很多人在学习过程中,会觉得「评测指标」是一个没有那么有趣的事情。比方说,咱们学模型,学算法,就可以去写程序,可以运行,写出来的时候会感觉还蛮酷的。但是评测指标呢,很多同学就觉得不是那么有趣。其实,我想告诉大家,评测指标是一个非常重要的东西。好比完成任何一个任务,不管你现在是完成普通的编程任务,还是要完成一个公司的市场行为、运营行为。一般来说,越复杂的任务,只要把评价指标,评价方式做对,这个任务基本上就已经完成了一半了。原创 2023-10-18 07:00:00 · 643 阅读 · 1 评论 -
14. 机器学习 - KNN & 贝叶斯
Hi,你好。我是茶桁。咱们之前几节课的内容,从线性回归开始到最后讲到了数据集的处理。还有最后补充了SOFTMAX。这些东西,都挺零碎的,但是又有着相互之间的关系,并且也都蛮重要的。并且是在学习机器学习过程当中比较容易忽视的一些内容。从这节课开始呢,我要跟大家将一些其他的内容。虽然最近几年用到的方法主要都是深度学习的方法,但是机器学习并不代表就只有深度学习这一种方法。当然现在的深度学习其实是从线性回归演化来的,都是用一种梯度下降的方式来做。但是呢其实有很多机器学习方法用的不是这种思想。原创 2023-10-28 12:18:07 · 715 阅读 · 0 评论 -
05. 机器学习入门 - 动态规划
咱们之前的课程就给大家讲了什么是人工智能,也说了每个人的定义都不太一样。关于人工智能的不同观点和方法,其实是一个很复杂的领域,我们无法用一个或者两个概念确定什么是人工智能,无法具体化。我也是要给大家讲两个重要的概念,要成为一个良好的AI工作者,需要了解两个概念,一个是什么是优化问题,第二个呢就是什么是继续学习。原创 2023-10-03 07:00:00 · 612 阅读 · 0 评论 -
09. 机器学习- 逻辑回归
那么咱们之前的model输出的是实数\in R, 这次需要的model就是输出的是0~1。这个模型的任务就变成了如果x给定的是1,那么model输出最后要尽可能的接近1。怎么样才能让我们的model输出是0到1之间呢?有一个方法,一个函数叫做logistic函数, logistic function:原创 2023-10-15 07:00:00 · 804 阅读 · 0 评论 -
08. 机器学习- 线性回归
线性回归非常的简单,也非常的基础。但是它作为我们整个人工智能,整个深度学习中要讲的第一课,里面蕴含了非常多的机器学习的基本思想。所以大家一定要把它学清楚。如果能把它学好,其实对于咱们以后学习帮助非常大。咱们来看一下,什么是线性回归。原创 2023-10-12 07:00:00 · 619 阅读 · 0 评论 -
15. 机器学习 - 支持向量机
支持向量机的原理其实可以很复杂,但它是一个很经典的思想方法。咱们就把它的核心思想讲明白就行了。其实我们平时在工作中用的也比较少。但是面试中有一些老一代的面试官会比较喜欢问这个问题。支持向量机的核心思想,假如我们有两堆数据,希望找一根线去把它做分类,那么咱们找哪一根线呢?原创 2023-10-30 14:00:50 · 951 阅读 · 0 评论 -
04. 人工智能核心基础 - 导论(3)
我现在这门课程和市面上大部分的人工智能都不相同,那些课程实际上就是跟风,将一些已经通用的解决方案整合一下打包给你,卖你个几千几万的。主打的就是一个信息差。而我现在给大家讲的,是思维,是基础,是如何去理解人工智能,属于底层建设。原创 2023-09-29 10:02:32 · 244 阅读 · 0 评论 -
18. SlopeOne 原始算法、优化算法的原理及应用
上节课的内容中,我们介绍了 Surprise 工具箱以及其中的 BaselineOnly,最后我们简单实现了一下。这一节课中,咱们来看看 Surprise 中的另外一个内容,SlopeOne 算法。原创 2024-03-01 07:45:00 · 1585 阅读 · 0 评论 -
03. BI - 详解机器学习神器 XGBoost
这些机器学习的神器都跟集成学习相关,先给大家看一个概念叫集成学习。集成学习就是把多个分类器合到一起,可以把它理解成叫三个臭**裨将**顶个诸葛亮。原创 2024-01-07 13:35:26 · 1343 阅读 · 0 评论 -
13. 如何制作和发布一个可视化看板
咱们之前用了几节课讲解了可视化的一些使用,重点是在 Python 里面的两个工具,一个是 Matplotlib,这是一个基础的工具,还有一个高级的封装是 Seaborn。它可以帮我们画各种各样的一些图表,在工程里面也是经常会使用到。原创 2024-02-11 18:20:30 · 1180 阅读 · 0 评论 -
15. BI - 推荐系统之 ALS 原理
本文为 「第 15 篇」原创 2024-02-21 07:45:00 · 731 阅读 · 0 评论 -
07. BI - 量化交易,如何编写代码来利用 MACD 决定选股策略
它的原理是要计算两条线,一个叫 MA1,一个叫 MA2, 1 是短线,2 是长线。短线就是短期的平均值,比如说过去的 10 天。长线就是长期的平均值,比如说 20 天。这两条线之间也会有个差,这个差值称为 DIFF,这个差就可以知道现在是短期大,还是长期更高。DIFF 组成的线,我们称之为 MACD 线。原创 2024-01-27 13:21:02 · 1138 阅读 · 0 评论 -
08. BI - 万字长文,银行如何做贷款违约的预测,特征处理及学习
那我们之前的课程里,带来了 Fintech 的应用场景,同时又对其中一个量化交易的场景做了一个简单实验。今天,咱们来另一个 Fintech 的场景,同样也是有数据,这个数据是来自于一场比赛。原创 2024-01-28 10:44:14 · 1146 阅读 · 0 评论 -
11. BI - 如何在 Python 中进行分词并展示词云
之前两节课,咱们学习了基础的数据可视化工具以及决策树的可视化。今天这节课,咱们要看到的是另外一个场景,叫做词云展示。原创 2024-02-04 11:56:59 · 825 阅读 · 0 评论 -
06. 量化交易,简单的炒股策略实现
上一节课中,咱们详细的分解了 Fintech 的应用场景,也是将相关的一些业务给大家好好的梳理了一遍。那么本节课中,咱们来一起做一个实战,关于 Python 的量化交易的一个板块。原创 2024-01-17 14:58:09 · 1105 阅读 · 0 评论 -
04. BI - LightGBM vs CatBoost,具体实现分析
LightGBM 是微软提出来的, 是属于XGBoost的升级版,也曾经是Kaggle里面使用模型最多的机器学习的神器。当然,目前LightGBM 之外,BERT以及GPT都越来越受关注,但是LightGBM 这么久了,依然还是占据一席之地,依然还是某些性质及任务要求下的首选。原创 2024-01-10 15:14:28 · 963 阅读 · 0 评论 -
12. BI - 可视化在项目蒸汽量预测的过程及应用
我们今天继续来看数据可视化做数据探索,今天我们还是来看相关项目。来看看可视化 EDA 在项目中的应用。原创 2024-02-07 18:54:25 · 673 阅读 · 0 评论 -
16. BI - 推荐系统之 ALS 实现
矩阵分解中拆矩阵的背后其实是聚类。就说 k 等于几是人工设定的,所以跟聚类概念很像。就是要把人群划分成几类,把电影划成几类。k 等于 3 是自己去设定的,也可以把它拆成 k 等于 4、k 等于 5,都是一样的,是要完成聚类任务。原创 2024-02-25 07:45:00 · 1773 阅读 · 0 评论