
机器学习
文章平均质量分 94
写代码的阿呆
每天保持进步就是最大的进步!
展开
-
游程检验和随机性检验
游程检验和随机性检验1 游程检验的含义2 应用1:两总体分布一致性检验2.1 定义及解决的问题2.2 原理2.2.1 Step1:提出假设2.2.2 Step2:计算检验统计量2.2.3 Step3:决策2.3 Python实现3 应用2:样本随机性检验(单总体)3.1 定义及解决的问题3.2 原理3.2.1 Step1:提出假设3.2.2 Step2:计算检验统计量3.2.3 Step3:决策3.3 Python实现1 游程检验的含义什么叫游程检验(Runs test)呢?游程检验的定义:亦称“连贯原创 2022-02-14 09:50:41 · 13472 阅读 · 2 评论 -
知识图谱 | 表示学习篇
知识图谱 | 表示学习篇1 知识图谱表示的挑战2 词的向量表示方法3 知识图谱嵌入3.1 概念3.2 优缺点4 知识图谱嵌入方法4.1 转移距离模型—TransE及其变体4.1.1 TransE4.1.2 TransH4.1.3 TransR4.1.4 TransD4.1.5 TransSparse4.1.6 TransM4.1.7 ManifoldE4.1.8 TransF4.1.9 TransA4.2 转移距离模型—高斯嵌入4.2.1 KG2E4.2.2 TransG4.3 其他距离模型4.3.1 非结原创 2021-06-29 11:22:06 · 3416 阅读 · 0 评论 -
Python | 一次代码优化的经历
Python | 一次代码优化的经历1 背景2 思路2.1 思路12.2 思路23 具体做法4 合并为一个函数1 背景小编最近在做知识图谱表示学习相关的一个项目,而在结果整理过程中,遇到了一个问题,并自主解决,现通过博客记录一下思考的过程。现在通过知识图谱的表示学习得到了如下结果:即每个字段和对应的向量表示。df_fie_vec 字段序号 字段编号 字段向量表示 0 10原创 2021-06-14 19:53:26 · 538 阅读 · 8 评论 -
知识图谱 | 基础篇
知识图谱·基础篇1 什么是知识图谱?1.1 图形角度1.2 数据角度1.3 技术角度2 知识图谱和机器学习的关系?2.1 部分应用殊途同归2.2 部分应用相结合2.3 过程中可以互为补充3 知识图谱的分类3.1 通用知识图谱和领域知识图谱3.1.1 通用知识图谱(GKG)3.1.2 领域知识图谱(DKG)3.1.3 两者比较3.2 数据知识图谱和规范知识图谱3.2.1 数据知识图谱3.2.2 规范知识图谱4 知识图谱的表示4.1 符号化表示(DKG)4.2 分布式表示(DR)4.3 两者比较5 知识图谱的构原创 2021-06-06 18:41:37 · 2526 阅读 · 0 评论 -
Python | KS检验以及其余非参数检验的实现
Python | KS检验以及其余非参数检验的实现1 什么是KS检验2 KS检验分类?3 KS检验的Python实现3.1 检验指定的数列是否服从正态分布3.2 检验指定的两个数列是否服从相同分布4 其余的非参数检验4.1 Wilcoxon符号秩检验(t检验的非参数版本)4.2 Kruskal-Wallis H检验(方差分析的非参数版本)4.3 Mann-Whitney秩检验5 参考1 什么是KS检验定义:检验一个分布f(x)与理论分布g(x)【比如正态分布】是否一致,或两个观测值分布是否有显著差异的检原创 2020-10-26 15:56:57 · 16807 阅读 · 6 评论 -
Python | Bootstrap采样实现
Python | Bootstrap采样实现1 什么是Bootstrap采样2 Bootstrap步骤3 为什么要进行Bootstrap采样4 采样的Python实现4.1 验证样本男女比例是否和总体一致4.2 模拟boostrap5 参考1 什么是Bootstrap采样先来看看维基百科的定义:即Bootstrap的定义是利用有限的样本经由多次重复抽样,建立起充足的样本,在机器学习中解决了样本不足的问题。Bootstrap是非参数统计方法,其实质是对观测信息进行再抽样,进而对总体的分布特性进行统计原创 2020-10-26 15:05:19 · 20887 阅读 · 3 评论 -
中心极限定理的理解
中心极限定理的理解1 背景2 Python模拟中心极限定理2.1 生成总体数据2.2 可视化2.3 抽一组看看2.4 抽很多组看看3 应用3.1 应用1:对于总体的估计3.2 应用2:多场景下统计量的近似使用4 中心极限定理可视化5 参考1 背景统计学上有一个重要的理论,就是中心极限定理,它的定义如下:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-514qxnIY-1603356526721)(attachment:image.png)]下面我们希望直观上来去理解下中原创 2020-10-22 16:51:30 · 2182 阅读 · 2 评论 -
iv值计算(含qcut细节)
iv值计算(含qcut细节)1 背景2 含有重复的数据2.1 数据准备2.2 等频分组2.3 等频分组-加上去掉重复的值3 不含有重复的数据3.1 数据准备3.2 等频分组3.3 等频分组-加上去掉重复值4 iv计算4.1 读入数据4.2 iv值计算4.3 结果分析1 背景在计算woe以及相关的iv值的时候,需要首先对数据进行分箱,分箱一般采用qcut,即等频分组。下面希望验证qcut(等频分组)-相同的值会在一组,即如果一组数据一半都是0,这些会被分在一组。同时计算iv值并进行相关分析2 含有重原创 2020-10-22 13:07:52 · 3407 阅读 · 0 评论 -
Focal Loss原理及实现
Focal Loss原理及实现1 什么是Focal Loss?2 什么场景下用Focal Loss?3 Focal Loss的原理是什么?为什么能解决样本不平衡问题?3.1 交叉熵损失函数binary loss3.2 Focal Loss的改进4 Focal Loss的实现4.1 导入库4.2 切分数据4.3 分训练集和测试集4.4 Focal Loss+Lightgbm5 写在最后6 参考资料1 什么是Focal Loss?最近工作中,Leader让了解一下Focal Loss,尝试解决信贷场景下样本原创 2020-10-19 15:32:17 · 6350 阅读 · 3 评论 -
FM原理及实现
FM原理及实现1 FM是个啥?2 FM的数学原理3 FM特征的实现样例4 FM的代码实现4.1 数据准备4.2 主代码实现4.2.1 安装xlearn4.2.2 拟合模型4.2.3 预测并得到KS值5 FM的优缺点1 FM是个啥?FM模型首先是一个有监督学习方法,主要用在CTR预估上,适用的情形是高维稀疏!优势是可以自动组合交叉特征,替代人工进行特征工程~同时很多场景下FM模型作为一开始的embedding,相比word2vec这样无监督的embedding,基于有监督FM模型的embedding效果原创 2020-10-14 12:17:18 · 4533 阅读 · 0 评论 -
LGB+LR的实践
文章目录1 背景2 原理3 数据的准备3.1 读入数据3.2 切分训练集测试集4 LR5 LGB6 LGB+LR6.1 LGB实现6.2 LGB的vector导出来!6.2.1 训练集6.2.2 测试集6.3 LR+LGB7 结果对比1 背景相信大名鼎鼎的GBDT+LR组合很多小伙伴都听过,这种组合模型的预测效果要比单模型要好,但之前一直没有亲自实践过,最近刚好公司一个项目用到了,故抓紧时间总结一波~2 原理简单来说就是首先用树模型(GBDT、Xgboost、Lightgbm)来预测样本结果,然后将原创 2020-10-11 20:59:38 · 5018 阅读 · 4 评论 -
Python | 记一次模型上线的惨痛教训
记一次模型上线的惨痛教训前言演示代码背景需要完成的任务bug浮出水面写在最后-Python如何学习前言最近两周一直在忙导师那边一个项目,进展到最后一步模型上线了,但花了2周多才搞定,其中一个原因是代码中有一个bug,导致模型结果一直和之前小样本测试差距较大,经过项目组小伙伴们的一起努力,终于找到了这个很”狡猾"的bug,故总结并和大家进行分享(由于这两周工作强度太大,很多天工作到深夜实在没有精...原创 2020-03-27 22:44:49 · 828 阅读 · 0 评论 -
随笔 | 少一点人工,多一点智能
欢迎大家关注微信公众号:土申会!简单的生活,明亮的世界。原创 2020-03-04 11:33:16 · 183 阅读 · 0 评论 -
深度学习 | 吴恩达深度学习课程1 Week3
第一门课程-第三周Quiz+编程作业1 Quiz1.1 第1题1.2 第2题1.3 第3题1.4 第4题1.5 第5题1.6 第6题1.7 第7题1.8 第8题1.9 第9题1.10 第10题2 编程练习2.1 需求2.2 加载和查看数据集2.3 逻辑回归实现分类2.4 搭建神经网络2.4.1 定义神经网络结构2.4.2 初始化参数2.4.3 循环2.4.3.1 定义隐层+输出层的激活函数2.4....原创 2019-06-08 18:21:34 · 960 阅读 · 0 评论 -
机器学习 | 朴素贝叶斯
聊聊朴素贝叶斯1 什么是朴素贝叶斯?2 朴素贝叶斯的实现过程2.1 基本思想2.2 极大似然估计2.3 贝叶斯估计3 朴素贝叶斯算法4 评价5 Python实现5.1 数据准备5.2 手写朴素贝叶斯5.3 sklearn.naive_bayes6 参考1 什么是朴素贝叶斯?首先上一个特别好的结构图:结合上图可以看到,朴素贝叶斯属于线性分类中的软分类的概率生成模型。这就有一个问题了,什么叫概...原创 2019-06-25 19:13:02 · 494 阅读 · 0 评论 -
数据结构与算法 | 3-5 时间复杂度和空间复杂度
什么是时间复杂度和空间复杂度?1 前言2 时间复杂度2.1 含义2.2 如何求解2.3 具体有哪几种形式?2.4 如何确定一段代码对应上面哪种形式?2.4.1 常数阶O(1)2.4.2 线性阶O(n)2.4.3 对数阶O(logN)2.4.4 线性对数阶O(nlogN)2.4.5 平方阶O(n²)2.4.6 立方阶O(n³)2.4.7 K次方阶O(n^k)2.4.8 指数阶(2^n)3 空间复杂度...原创 2019-06-11 12:22:51 · 1261 阅读 · 0 评论 -
业务 | 信贷模型中的评分卡
评分卡模型1 消费信贷概述1.1 消费金融概述1.2 消费信贷发展痛点1.3 痛点解决思路2 模型业务目标确定2.1 风控内容2.2 Vintage分析法2.3 如何确定业务目标2.4 Vintage和迁移率模型对比3 A卡和B卡3.1 A卡3.2 B卡3.3 C卡4 案例4.1 背景4.2 步骤4.2.1 提数并数据预处理4.2.2 模型流程4.2.3 策略4.2.4 评估效果4.3 特征工程部...原创 2019-06-03 21:18:54 · 3453 阅读 · 0 评论 -
机器学习 | 优化方法
除了梯度下降,还有哪些优化方法?1 优化方法概括参考1 优化方法概括SGD为随机梯度下降,每一次迭代计算数据集的mini-batch的梯度,然后对参数进行更新。Momentum参考了物理中动量的概念,前几次的梯度也会参与到当前的计算中,但是前几轮的梯度叠加在当前计算中会有一定的衰减。Adagard在训练的过程中可以自动变更学习的速率,设置一个全局的学习率,而实际的学习率与以往的...原创 2019-06-09 21:01:32 · 283 阅读 · 0 评论 -
机器学习 | 混淆矩阵和两类错误的关系
混淆矩阵和两类错误有什么关系吗?1 混淆矩阵2 统计学上的两类错误3 两者的关系4 参考1 混淆矩阵在机器学习的分类问题中,最后需要去评估我们模型的优劣,这时候有众多的指标可以去考虑,之前两篇博客中也都有涉及,详情见:机器学习 | 评价指标分类问题 | 评价指标在众多评价指标的计算中都得依赖于一个东东,他就是【混淆矩阵】,具体长下面这个样子,但有时候预测值和真实值位置会换过来,不过这...原创 2019-06-08 20:15:29 · 4059 阅读 · 2 评论 -
深度学习 | 过拟合的来龙去脉
什么叫dropout?参考待补充思考:上面我们介绍了两种方法进行Dropout的缩放,那么Dropout为什么需要进行缩放呢?因为我们训练的时候会随机的丢弃一些神经元,但是预测的时候就没办法随机丢弃了。如果丢弃一些神经元,这会带来结果不稳定的问题,也就是给定一个测试数据,有时候输出a有时候输出b,结果不稳定,这是实际系统不能接受的,用户可能认为模型预测不准。那么一种”补偿“的方案就是每个神经...原创 2019-06-28 17:41:34 · 1065 阅读 · 0 评论 -
求职 | 百度笔试题
百度笔试题1 前言2 笔试题1 前言最近百度开始了秋招提前批,现记录下笔试题,不会的进行相应总结。2 笔试题https://www.nowcoder.com/questionTerminal/bf37a5c586664715bbb06e395e6134b6?orderByHotValue=0&page=1&onlyReference=falsehttps://www.n...原创 2019-07-11 02:03:00 · 412 阅读 · 0 评论 -
深度学习 | 优化算法
优化算法有哪些?1 什么是优化算法?1.1 原理1.2 图解2 有哪些优化算法?2.1 SGD2.1.1 思想2.1.2 公式2.2 SGDM2.2.1 原理2.2.2 图解2.2.3 公式2.3 NAG2.3.1 思想2.3.2 公式2.4 AdaGrad2.4.1 思想2.4.2 公式2.5 AdaDelta / / RMSProp2.5.1 思想2.5.2 公式2.6 Adam2.6.1 ...原创 2019-07-07 12:09:43 · 1295 阅读 · 0 评论 -
机器学习 | GBDT+XGBoost知识补充及梳理
GBDT+XGBoost知识补充及梳理1 前言2 面试被问到的相关点参考1 前言2 面试被问到的相关点参考原创 2019-07-23 22:10:10 · 1969 阅读 · 0 评论 -
机器学习 | SVD分解
什么是SVD分解?1 前言2 SVD的来龙去脉2.1 概念2.2 为什么要做特征值分解以及为什么会出现SVD?2.3 SVD的原理2.3.1 完全奇异值分解过程2.3.2 部分奇异值分解3 SVD的举例4 SVD的应用5 SVD的优缺点1 前言经常看到SVD奇异值分解,但一直没有去了解它讲的什么,刚好在李航老师统计学习方法第二版上是单独的一章,下面看了一些博客总结一下~2 SVD的来龙去脉...原创 2019-07-24 22:21:25 · 2147 阅读 · 0 评论 -
机器学习 | 最大熵模型
什么是最大熵模型?1 前言2 什么是最大熵模型?2.1 通俗解释3 最大熵模型的应用场景4 模型优缺点参考1 前言继续梳理李航老师《统计学习方法》的章节内容,今天我们一起来看一看啥叫最大熵模型?2 什么是最大熵模型?2.1 通俗解释首先来看看吴军老师的《数学之美》书中对于最大熵模型的通俗解释。一句话概括:不要把鸡蛋放到一个篮子里!保留全部的不确定性,将风险降到最小,此时对应的熵最大...原创 2019-07-26 10:54:22 · 1774 阅读 · 1 评论 -
深度学习 | Word2vec原理及应用
聊聊Word2vec1 前言2 什么是Word2vec?2.1 定义2.1.1 分词的原理介绍2.1.2 文本向量化的方式2.2 数学原理2.2.1 CBOW(Continuous Bag-of-Words)原理2.2.2 Skip-Gram原理2.2.3 为什么要有Word2vec 而不是用原来的?2.2.4 Word2vec基础:霍夫曼树2.2.5 Hierarchical Softmax2....原创 2020-06-17 23:43:19 · 3843 阅读 · 0 评论 -
机器学习 | Faiss实现
Faiss原理及实现1 前言2 什么是Faiss2.1 为什么会出现Faiss?2.2 Faiss的优点2.3 Faiss组件2.3.1 索引Index2.3.2 索引Index选择的原则2.4 优化方法:单元-探测(Cell-probe) 方法3 Faiss的Python实现3.1 导入库3.2 准备数据3.3 创建索引(Index)3.4 查找相似向量3.5 加速搜索3.6 减少内存3.7 G...原创 2019-08-20 02:10:27 · 5898 阅读 · 0 评论 -
机器学习 | LDA主题模型
LDA主题模型1前言1.1 数据介绍1.2 我们为什么要引入上面的外部数据源?1.3 那我们该怎么去做?2 读入数据3分词处理3.1 先原始分词3.2 引入常见停用词3.3 自定义词典3.4 批量对这批数据进行分词处理4 提取特征4.1 先从数据中提取出高的标签4.1.1 单个实验4.1.2 封装函数4.2 提取用户年龄4.3 提取小孩年龄4.4 提取性别5 思路1:使用两种关键词提取方法5.1 ...原创 2019-04-22 17:46:58 · 3270 阅读 · 5 评论 -
机器学习 | 评价指标
如何评判模型的优劣?1 背景2 评价指标有哪些?3 Python如何实现?计算AUC的两种方法4 参考1 背景做完一个模型之后,无论是回归还是分类,均需要去评判这个模型的优劣!如何去判断呢?在统计上有很多指标去进行衡量,而且不同的场景下应用的指标也会有一些差异!下面就和小编的视角来一探究竟吧!2 评价指标有哪些?分类问题评价指标:准确率(Accuracy)斜对角线元素之和除以总数。...原创 2019-05-18 00:24:29 · 894 阅读 · 0 评论 -
机器学习 | 融合方法
如何融合多模型的预测结果?5.1 模型融合方法待补充。5.1 模型融合方法多模型做完之后,希望能融合多模型结果。大概有三种方法:分类问题:Voting回归问题:AveragingStacking方法。每一次的结果标签是下一次的输入!前两种都比较好理解,就是最后一种Stacking 没怎么看懂!参考资料:https://blog.youkuaiyun.com/willduan1/arti...原创 2019-05-19 23:00:28 · 2026 阅读 · 0 评论 -
机器学习 | 样本不平衡问题处理方法
如何解决样本不平衡问题?2 样本不平衡问题的处理方式2.1 场景2.2 对训练集还是测试集用?还是全量用?2.3 处理方法有哪些?待补充!2 样本不平衡问题的处理方式2.1 场景最近刚好做的项目是一个二分类问题,全量数据中正负样本比超过了5:1,一般认为超过4:1则是样本不平衡,因此需要进行处理。2.2 对训练集还是测试集用?还是全量用?仅针对训练集进行样本不平衡问题的处理,测试集不用...原创 2019-05-19 22:58:37 · 3992 阅读 · 2 评论 -
机器学习 | 斗鱼直播热度影响因素分析
斗鱼直播热度影响因素分析1 报告来源2 思路3 PPT分享1 报告来源上学期导师课《商务大数据分析》团队一起完成的数据分析报告,PPT和大家分享一下。2 思路完成作品“斗鱼直播热度影响因素分析”。背景介绍。从直播市场→直播平台→斗鱼平台盈利模式→斗鱼主播热度变量说明。因变量为对数直播热度,自变量包括基本信息等4个维度共18个变量。上述变量均通过Python爬虫进行获取描述性分析。从...原创 2019-04-20 13:28:07 · 3281 阅读 · 3 评论 -
机器学习 | 从文本分析看《解忧杂货店》
从文本分析看《解忧杂货店》1 讲故事版本2 PPT版本3 写在最后之前参加狗熊会人才计划的毕业作品,和大家分享一下,分为故事版本和PPT版本。1 讲故事版本https://mp.weixin.qq.com/s/0GTMi_AvfVzUXEpcvIGmZghttps://mp.weixin.qq.com/s/w7ZRoNrndjaRYL8pMie6Mw2 PPT版本...原创 2019-04-19 18:56:54 · 617 阅读 · 1 评论 -
机器学习 | 变量选择
变量选择方法1 背景2 变量选择方法有哪些?3 什么叫向前/向后选择以及逐步回归、最优子集?AIC/BIC又是怎么定义的?3.1 四种统计上变量选择的方法3.2 什么是AIC/BIC3.2.1 AIC3.2.2 BIC4 如何实现5 参考1 背景为什么要聊一聊机器学习中的变量选择问题呢?因为这个问题在机器学习中相当重要,并且也是面试必问题之一,刚好前几天面试还被问到了变量选择中一个很细节的知识...原创 2019-04-14 01:38:16 · 11735 阅读 · 0 评论 -
机器学习 | TF-IDF和TEXT-RANK的区别
提取关键字的两种方法1 背景1.1 为什么要计算这两个指标?2 什么是TF-IDF2.1 定义2.2 计算方式2.3 举例2.4 Python实现3 什么是TEXT-RANK3.1 定义/思想3.2 计算公式3.3 Python实现3.4 用途4 两者对比5 参考1 背景在前面的一篇博客里,笔者层提到过这两种计算关键词的思路(尴尬了,好像没有提到,没事待会儿写一篇LDA主题模型的博客,里面会涉...原创 2019-04-21 10:15:41 · 4833 阅读 · 0 评论 -
机器学习 | 集成学习
集成学习1 面试遇到的问题1.1 GBDT XGBoost LightGBM 三者有什么区别?1.1.1 GBDT VS XGBoost1.1.2 XGBoost VS LightGBM1.2 bagging和boosting有什么区别?1.3 Adaboost每次样本权重的调整体现在哪?1.4 随机森林的随机体现在哪?1.5 为什么随机森林的树深度往往大于 GBDT 的树深度?1.6 谈一谈XG...原创 2019-04-15 23:27:45 · 3399 阅读 · 0 评论 -
机器学习 | 特征工程
离散变量处理方式1 离散变量处理方法概览2 什么是woe?3 什么是iv?3.1 计算公式3.2 含义解释3.3 例题4 补充4.1 为什么不直接用woe了,还非要引入IV?4.2 极端情况怎么办?4.3 y是不是只能0或者1?上一篇推文中简单提到了离散变量的处理方式,和同学交流了一波,感觉这几种处理方式还蛮有意思的,总结一波!1 离散变量处理方法概览2 什么是woe?WOE的全称...原创 2019-04-07 10:24:31 · 743 阅读 · 0 评论 -
机器学习 | 决策树面试点+三种算法手动实现+Sklearn实现+ROC曲线+网格搜索
决策树系列知识点1 决策树面试遇到过的问题1.1 为什么决策树会过拟合?1.2 说一说CART树?1.2.1 上面延伸1-说一下最小二乘回归树法的原理?1.2.2 上面延伸2-说一下CART分类的原理?1.2.3 上面延伸3-说一下cart剪枝和普通的剪枝的区别?1.3 比较一下树模型的ID3 C4.5 CART?1.4 剪枝分为哪两种?有什么区别?平常用哪种剪枝比较多?为什么?1.5 什么叫信息...原创 2019-04-07 07:21:10 · 3441 阅读 · 6 评论 -
机器学习 | 逻辑回归面试点+三种优化算法手动实现+Sklearn实现+ROC曲线
目录1 逻辑回归面试常考点1.1 简单介绍1.2 假设1.3 损失函数1.4 逻辑回归的求解方法1.4.1 批梯度下降1.4.2 随机梯度下降(SGD)1.4.3 小批量梯度下降(MGBD)1.5 逻...原创 2019-03-24 17:01:47 · 4466 阅读 · 0 评论 -
零散知识点总结
最近遇到知识点总结1 调参方法2 样本不平衡问题的处理方式2.1 场景2.2 对训练集还是测试集用?还是全量用?2.3 处理方法有哪些?3 SQL的相关问题3.1 缺失值的处理3.2 遇到的坑4 Python4.1 一个贼牛逼的三方库4.2 小技巧5 机器学习5.1 模型融合方法5.2 评价指标最近实习做项目的时候遇到了一些很多细碎的知识点,总结一下。1 调参方法之前面试也被问过:你知道...原创 2019-05-09 23:59:11 · 481 阅读 · 0 评论