
机器学习
文章平均质量分 82
jdmike
机器学习/深度学习
展开
-
深度学习 | BN层原理浅谈
相反的,全连接和卷积层的输出一般是一个对称的,非稀疏的一个分布,更加类似于高斯分布,对他们进行归一化会产生更加稳定的分布。例如Relu激活函数,如果输入的数据是一个高斯分布,经过Relu输出的数据小于0的被抑制,就不是高斯分布了。对于深度学习这种包含很多隐层的网络结构,各隐层学到的权重等参数都在不停的变化,导致隐层的输入分布老是变来变去,产生了所谓的“BN每个batch采样的数据都不一样,但是每次的batch的数据都会被局部均值和方差作用,可以认为是引入了噪声,增强了过拟合能力。(2)加速网络收敛速度,原创 2023-03-01 17:17:09 · 1315 阅读 · 1 评论 -
深度学习 | Attention与Transformer
Attention,又称为注意力机制,顾名思义,是一种能让模型对重要信息重点关注并充分学习吸收的技术,它不算是一个完整的模型,应当是一种技术,能够作用于任何序列模型中。原创 2022-08-17 14:34:57 · 1386 阅读 · 0 评论 -
特征工程 | 信息价值IV与群体稳定性PSI
特征工程 | 信息价值IV与群体稳定性PSI关键词:特征筛选,信息量,稳定性文章目录特征工程 | 信息价值IV与群体稳定性PSI前言一、信息价值IV1.1 使用条件1.2 评价基准1.3 计算原理a. WOE计算b. IV计算二、群体稳定性PSI2.1 使用条件2.2 评价基准2.2 计算原理三、总结四、代码附录前言 基于IV与PSI的筛选方法主要应用于“金融风控”场景,该场景下,稳定性压倒一切,一套模型正式上线后往往很久才迭代一次。因此对于特征工原创 2022-03-27 21:15:47 · 1771 阅读 · 0 评论 -
深度学习 | 自然语言处理之RNN/LSTM
循环神经网络RNN提示:本文默认读者具备基本的深度学习知识,如加权激活,链式求导,权重矩阵等信息。文章目录循环神经网络RNN前言一、循环神经网络结构前言 RNN非常适合"具备序列特性的特征",因此能够挖掘特征中的时序信息和语义信息。利用了RNN的这种能力,使深度学习模型在解决语音识别、语言模型、机器翻译以及时序分析等NLP领域的问题时有所突破。序列特性,即符合时间顺序,逻辑顺序,或者其他顺序就叫序列特性,举几个例子:拿人类的某句话来说,也就是原创 2022-02-13 14:36:57 · 1536 阅读 · 0 评论 -
一知半解的极大似然估计
极大似然估计,很多人会解释为已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值! 这句话乍一看有些抽象,不妨解释为:已知某一模型输出的样本结果,其模型参数未知,通过一种方法反推最有可能使模型输出该结果的参数值。这种方法,即“极大似然估计”换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”,这不正是机器学习的常态吗?我们得到了样本结果,通过训练原创 2021-12-24 23:36:10 · 504 阅读 · 0 评论 -
特征异常值处理
数值型特征为了避免异常值, 数值型特征的归一化特殊处理最大值取95%分位数max_v = df.col1.quantile(0.95)最小值取5%分位数min_v = df.col1.quantile(0.05)计算补偿gapgap = (max95 - min5) / 10最终取值max_v = max_v + gapmin_v = min_v - gap if min_v !=0 else 0...原创 2021-10-14 11:41:24 · 506 阅读 · 0 评论 -
Pytorch建模笔记
Pytorch建模笔记文章目录Pytorch建模笔记一、继承式建模1.1 构建数据集1.2 网络搭建1.3 损失函数及优化器API对比一、继承式建模1.1 构建数据集 Pytorch的数据集需要手工将ndarray或dataframe转化为一种pytorch通用的数据集形式。首先需要将ndarray数据转为tensorx_train = torch.tensor(x_train.astype(np.float32))y_train = torc原创 2021-08-17 15:15:31 · 542 阅读 · 0 评论 -
神经网络反向求导不可导情况处理
1.激活函数不可导深度学习算法通常需要进行反向求导,来更新模型的参数,这就要求激活函数满足处处可导的性质,例如传统的sigmoid函数等。但是,为了解决梯度消失等问题提出的relu系列函数却不满足处处可导性质。针对这种类型的激活函数,可以使用次梯度来解决。次梯度方法(subgradient method)是传统的梯度下降方法的拓展,用来处理不可导的凸函数。它的优势是比传统方法处理问题范围大,劣势是算法收敛速度慢。但是,由于它对不可导函数有很好的处理方法,所以学习它还是很有必要的。对于rel转载 2021-08-04 13:52:40 · 1790 阅读 · 0 评论 -
机器学习 | 基于内容的Word2Vec实现
Word2Vec实现文章目录Word2Vec实现一、Word2Vec是什么二、主流实现方式1.gensim2.jiaba总结一、Word2Vec是什么二、主流实现方式1.gensim代码如下(示例):import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport warningswarnings.filterwarnings('ignore')impor原创 2021-07-12 22:51:36 · 877 阅读 · 0 评论 -
大数据 | Pyspark基本操作
系列文章目录Apache Spark是新兴的一种快速通用的大规模数据处理引擎。它的优势有三个方面:通用计算引擎 能够运行MapReduce、数据挖掘、图运算、流式计算、SQL等多种框架;基于内存 数据可缓存在内存中,特别适用于需要迭代多次运算的场景;与Hadoop集成 能够直接读写HDFS中的数据,并能运行在YARN之上。Spark是用Scala语言编写的,所提供的API也很好地利用了这门语言的特性,当然作为数据科学的一环,它也可以使用Java和Python编写应用。这里我们将用Python给大原创 2021-06-17 21:36:59 · 960 阅读 · 4 评论 -
机器学习 | 机器学习之巅SVM系列(二)
机器学习 | 机器学习之巅SVM系列(二)本文记录了SVM的数学模型文章目录机器学习 | 机器学习之巅SVM系列(二)一、支持向量机二、函数间隔与几何间隔1.引入库2.读入数据总结一、支持向量机 对于二分类问题,解决思路即找到合适的超平面,能够将数据划分在超平面两侧以便实现分类。对于线性分类器而言,如逻辑回归,我们能够找到类似wTx+b=0w^Tx+b=0wTx+b=0的超平面,既可以是左图中的蓝实线,也可以是蓝虚线,这取决于回归后的结果。&nbs原创 2021-06-15 14:35:02 · 196 阅读 · 0 评论 -
机器学习 | 奇异值分解SVD与实现
前言特征分解——>奇异值分解(SVD)——>隐语义模型(LFM),三个算法在前者的基础上推导而成,按顺序先后出现。三者均用于矩阵降维。其中:SVD奇异值分解为矩阵分解的一种方法,可用于推荐系统中,将评分矩阵补全、降维。奇异值分解(SVD) 将目标矩阵A,转化为三个矩阵相乘,如下: 其中,A为目标矩阵,表示user对item的打分;P为左奇异矩阵,mm维,为User矩阵;Q为右奇异矩阵,nn维原创 2021-05-29 19:36:24 · 3337 阅读 · 0 评论 -
机器学习 | 决策树之回归树
系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言一、回归树的构建方法二、递归二分法总结前言决策树不仅可以进行分类,也可以进行回归。与线性回归不同,回归树是将空间进行划分,每个空间对应一个标签。一、回归树的构建方法当面对一个回归问题时,特征向量为:X=[x1x2x3x4...xj]X =\begin{bmatri原创 2021-05-24 22:02:25 · 7442 阅读 · 6 评论 -
机器学习 | 机器学习之巅SVM系列(一)
系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例原创 2021-05-19 22:40:58 · 448 阅读 · 0 评论 -
用人话讲解tf.split
API原型(TensorFlow 1.8.0):tf.split(value,num_or_size_splits,axis=0,num=None,name=‘split’)这个函数是用来切割张量的。输入切割的张量和参数,返回切割的结果。value传入的就是需要切割的张量。这个函数有两种切割的方式:以三个维度的张量为例,比如说一个20 * 30 * 40的张量my_tensor,就如同一个长20厘米宽30厘米高40厘米的蛋糕,每立方厘米都是一个分量。有两种切割方式:如果num转载 2021-05-10 21:10:51 · 207 阅读 · 0 评论 -
深度学习 | Tensorflow2.0函数式建模笔记
深度学习 | Tensorflow2.0函数式建模Tensorflow2.0主要支持3种建模方式,分别为tf.keras.models.Sequential(), 适合比较简单的网络,前一层输出是后一层输入。class mymodel(tf.keras.models.Model), 继承Model父类的方法,通过super(), call()等方法实现子类的方法。函数式API,自定义Input_layer,output_layer,适合比较复杂的网络搭建,比如Wide&Deep, xDee原创 2021-05-09 12:15:27 · 746 阅读 · 0 评论 -
机器学习 | Xgboost代码框架
Xgboost提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录Xgboost模型格式DMatrix数据格式DataFrame数据格式参数设置模型格式Xgboost对于输入数据的分类,可分为两类:DMatrixDataFrameDMatrix数据格式DMatrix数据主要由以下数据源转化:libsvm转化csv文件读取为Data原创 2021-05-04 20:42:38 · 1459 阅读 · 0 评论 -
深度学习 | Tensorflow模型可视化
Netron软件https://github.com/lutzroeder/Netron使用方法直接安装exe,导入模型文件(如.h5),自动生成模型网络原创 2021-04-28 17:06:01 · 497 阅读 · 0 评论 -
机器学习 | 评估准则及指标
文章目录前言一、假设集合如何来衡量一个假设集合?二、如何来衡量假设集合1.分类能力 VC Dimension2.稳定性 bias-variance总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。一、假设集合首先抛出概念! “假设集合是一类模型的集合”, 如线性模型,多项式模型,树模型,神经网络模型等。机器学习的过程是,选择一类原创 2021-04-14 21:28:31 · 1109 阅读 · 0 评论 -
深度学习 | Tensorflow2.0使用心得
Tensorflow2.0使用心得文章目录Tensorflow2.0使用心得Keras一、Simple Model二、使用步骤1.引入库2.读入数据总结Keras Tensorflow2推荐使用keras构建网络,常见的神经网络都包含在keras.layer中 Keras 是一个用于构建和训练深度学习模型的高阶 API。它可用于快速设计原型、高级研究和生产。  原创 2021-04-12 15:04:31 · 545 阅读 · 3 评论 -
机器学习 | 集成学习大杀器GBDT&Xgboost
系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录泰勒展开,梯度下降法与牛顿法的联系一、pandas是什么?二、使用步骤1.引入库2.读入数据GBDT与Xgboost区别泰勒展开,梯度下降法与牛顿法的联系一阶泰勒展开:f(x)=f(x0)+f′(x)(x−x0)f(x)=f(x_0)+f^{'}(x)(x-x_0)f(x)原创 2021-04-07 00:11:13 · 644 阅读 · 2 评论 -
推荐系统 | 朴素协同过滤算法
文章目录前言一、协同过滤的中心思想二、基于用户的协同过滤算法1. 算法步骤-将用户基于向量化表示,-使用向量空间模型(VSM)计算基础相关性,-利用基础相关性+用户原始行为,计算最终推荐结果2.算法分析总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、协同过滤的中心思想把用户/物品基于向量化的表示:如[1,0,1,0,1],原创 2021-01-09 16:59:39 · 248 阅读 · 0 评论 -
Pandas | 缺失值处理
Pandas缺失值处理文章目录Pandas缺失值处理前言一、判断缺失值二、处理缺失值利用sklearn工具填充缺失值总结前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表原创 2020-12-11 19:10:08 · 279 阅读 · 0 评论 -
机器学习 | 朴素贝叶斯算法
文章目录前言一、贝叶斯定理是什么?条件概率贝叶斯定理二、朴素贝叶斯算法前言 贝叶斯算法是一种分类算法,它以贝叶斯定理作为基础,因此被称为贝叶斯分类。其中“朴素贝叶斯”是贝叶斯分类中最基础的算法。一、贝叶斯定理是什么? 说到贝叶斯定理,不得不佩服伟大的数学家。不是说贝叶斯定理有多么复杂,而是真正的实用于我们的生活。 比如,当我们已知一件事情的条件概率P(A∣B原创 2020-10-27 00:13:03 · 310 阅读 · 0 评论 -
Python | Seaborn绘图
plt.subplots() #同时创建画布figure和坐标轴对象axe, 等价于fig,axes = plt.subplots(1,1)原创 2020-10-11 18:24:51 · 2792 阅读 · 1 评论 -
机器学习 | Sklearn框架
系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言一、sklearn五大基本函数二、使用步骤1.引入库总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参原创 2020-10-11 17:22:25 · 1068 阅读 · 1 评论 -
机器学习 | 决策树原理&剪枝&连续值缺失值处理
决策树提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录决策树前言一、基本参数概念信息量信息熵信息增益信息增益率Gini Index二、决策树常用算法1.ID3总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。一、基本参数概原创 2020-10-03 14:34:12 · 615 阅读 · 0 评论 -
Pandas | 数据融合与拼接(Merge & Concat)
Pandas对于数据的融合主要有以下几种方式数据融合(Merge)pd.merge()方法可理解为"合并",主要注意两个参数:pd.merge(df1, df2, on='xx', how='inner/outer')参数1:onon=‘xx’即依据哪一列进行合并,例如下图中on=‘姓名’,即依据姓名进行合并。参数2:howhow = ‘inner’ (默认)即内连接,根据多表间共同存在的索引进行合并,如下图两个DataFrame中,left和right的原创 2020-09-25 17:36:58 · 1289 阅读 · 0 评论 -
Pandas | 数据分类与聚合(groupby & agg)
Pandas数据分类 当我们拿到数据后,数据往往呈现地十分全面,甚至复杂。如何根据需求提取我们所需的数据,进行分组和聚合,是非常有效的手段!分组方法说明df.groupby(‘A’)根据‘A’列的值进行分组,返回一个groupby对象df.groupby([‘A’,‘B’])根据‘A’列和’B’列的值进行分组,返回一个groupby对象df.groupby(‘A’)[‘B’].agg(‘’)根据‘A’列的值进行分组,并选中分组后的’B’列进行聚原创 2020-09-25 17:29:02 · 1392 阅读 · 0 评论 -
Pandas | 数据类型及基本操作(Series & DataFrame)
Series一维数据结构,数据呈单列,索引为行import pandas as pdimport numpy as nps = pd.Series([18,20,25])pandas会默认用0到n-1来作为Series的index,但是我们也可以自己指定index。index我们可以把它理解为dict里面的key。s = pd.Series([18,20,25], index = ['张三','李四','王五'])#等同于上式pd.Series([18,20,25], index =原创 2020-09-25 17:28:32 · 5452 阅读 · 1 评论 -
机器学习 | 线性回归与逻辑回归
线性回归与逻辑回归提示:这里可以添加系列文章的所有文章的目录,目录需文章目录线性回归与逻辑回归一、线性模型二、线性回归1.损失函数是什么?总结一、线性模型 线性模型(linear model),试图通过数据属性的线性组合来进行预测的函数 f(x)=w1x1+w2x2+...+wdxd+bf(x)=w_1x_1+w_2x_2+...+w_dx_d+bf(x)=w1x1+w2x2+...+wdxd原创 2020-09-23 23:57:37 · 815 阅读 · 0 评论 -
机器学习之数据降维与PCA
机器学习之数据降维与PCA改编参考自:http://blog.codinglabs.org/articles/pca-tutorial.html文章目录机器学习之数据降维与PCA前言一、数据的向量表示及降维问题二、向量的表示及基变换1.内积与投影2.基协方差矩阵及优化目标方差协方差协方差矩阵协方差矩阵对角化算法及实例总结前言 PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为原创 2020-09-19 19:06:08 · 520 阅读 · 0 评论 -
机器学习 | 数学基础
线性回归模型提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录线性回归模型前言一、矩阵二、L-P Norm(范数)1.引入库总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、矩阵1. 矩阵的转置的转置仍为该矩阵, (AT)T=A(A^T)^T = A(原创 2020-09-19 15:50:20 · 7748 阅读 · 0 评论 -
机器学习-机器学习算法分类
机器学习通常分为四类:监督学习无监督学习半监督学习强化学习一. 监督学习即数据是有标签的,数据的输入存在着对应的输出。一般来说,数据的输入是带有多种特征的多维向量,而输出则是一个期望的输出标量。监督学习是从标记的训练数据来推断一个功能的机器学习任务。监督学习算法是分析该训练数据,并产生一个推断的功能,其可以用于映射出新的实例。一个最佳的方案将允许该算法来正确地决定那些看不见的实例的类标签。监督学习中典型的应用:分类问题比如上面的邮件过滤就是一个二分类问题,分为正例即正常邮件,负例即垃原创 2020-08-02 14:36:44 · 729 阅读 · 0 评论