
机器学习
姬香
人生到处知何似,应似飞鸿踏雪泥
展开
-
机器学习基础复习(一)
包含:LR, RD, SVM, KMEANS(场景)手写推导公式;原理描述;原创 2019-03-20 14:35:49 · 274 阅读 · 0 评论 -
分类算法(一):广义线性模型之线性回归、逻辑回归
线性回归——正态分布来分析误差; 逻辑回归——伯努利分布来分析误差线性回归用来做预测,LR用来做分类。线性回归是来拟合函数,LR是来预测函数。线性回归用最小二乘法来计算参数,LR用最大似然估计来计算参数。线性回归更容易受到异常值的影响,而LR对异常值有较好的稳定性。线性回归(回归)线性回归通常是解决连续数值预测问题, 利用数理统计的回归分析, 来确定变量之间的相互依赖关系。线性回归中的...原创 2019-07-06 21:41:48 · 3319 阅读 · 1 评论 -
熵,联合熵,条件熵,互信息,相对熵(KL散度),交叉熵的理解
熵熵:可以表示一个事件A的自信息量,也就是A包含的所有信息量。联合熵两个随机变量X,Y的联合分布,可以形成联合熵Joint Entropy,用H(X,Y)表示。边缘分布p(x)等于联合分布p(x,y)的和,可得:条件熵条件熵的定义,有:H(Y|X)=H(X,Y)-H(X)互信息用I(X,Y)表示:两个随机变量X,Y的互信息定义为X,Y的联合分布和各自独立分布...原创 2019-07-05 17:46:43 · 1146 阅读 · 0 评论 -
分类算法(三):贝叶斯分类器的原理
对贝叶斯分类来说,考虑如何基于概率和误判损失来选择最优的类别标记。贝叶斯公式判别式:给定x,直接建模p(c|x)来预测c,例如决策树、BP神经网络、支持向量机生成式:先对联合概率分布p(x,c)建模,再得到p(c|x),例如贝叶斯。 :先验概率,样本所占样本空间的比例。先验概率是指我们主观通过事件发生次数对概率的判断。 :泳衣归一化的证据因子 :条件概率,或似然。 ...原创 2019-07-10 21:41:07 · 515 阅读 · 0 评论 -
softmax函数的原理
softmax用于多分类过程中,它将多个神经元的输出,映射到(0,1)区间内。假设我们有一个数组,V,Vi表示V中的第i个元素,那么这个元素的softmax值:如下图表示:softmax直白来说就是将原来输出是3,1,-3通过softmax函数一作用,就映射成为(0,1)的值。我们就可以选取概率最大(也就是值对应最大的)结点,作为我们的预测目标。当我们对分类的Loss进行改进的...原创 2019-07-05 15:31:38 · 3721 阅读 · 0 评论 -
分类算法(二):SVM的原理
支持向量机基本模型定义为特征空间上的间隔最大的线性分类器。而它的学习策略为最大化分类间隔,最终可转化为凸二次规划问题求解。SVM为非参数模型。SVM的损失函数采用的是hingeloss。在学习分类器的时候,SVM只考虑与分类最相关的少数支持向量点。应用:解决二分类或者多分类问题最优分类超平面最优分类超平面–尽可能的远离所有类别的数据点,对已知和未知数据都能准确地分类,因而,我们需要寻找...原创 2019-07-09 23:38:15 · 7243 阅读 · 0 评论 -
分类算法及其应用场景
单一的分类方法主要包括:LR逻辑回归,SVM支持向量机,DT决策树、NB朴素贝叶斯、NN人工神经网络、K-近邻;集成学习算法:基于Bagging和Boosting算法思想,RF随机森林,GBDT,Adaboost,XGboost。...原创 2019-07-09 22:26:53 · 6266 阅读 · 0 评论 -
模型融合:Stacking源码解析
第一层:训练数据:通过5-fold切分数据集分别训练和测试,将model1的预测值保存为P1,作为model2的训练数据。测试数据:通过每次训练的model1预测所有的测试数据,然后取平均值得到T1。如果第一层有三个模型,则得到预测值矩阵(P1, P2, P3)和 预测值矩阵 (T1, T2, T3)。第二层:预测值矩阵(P1, P2, P3)作为训练集,预测值矩阵 (T1, ...原创 2019-07-14 00:09:49 · 901 阅读 · 0 评论 -
最优化方法总结:公式解、数值优化、求解思想
机器学习的目标是给出一个模型(一般是映射函数),然后定义对这个模型好坏的评价函数(目标函数),求解目标函数的极大值或者极小值,以确定模型的参数,从而得到我们想要的模型。在这三个关键步骤(定义模型,目标函数,求解极值)中,前两个是机器学习要研究的问题,建立数学模型。第三个问题是纯数学问题,即最优化方法。机器学习要求解的数学模型1.有监督学习:目标函数的极值对于有监督学习,我们要找到一...原创 2019-07-03 18:23:03 · 17776 阅读 · 1 评论 -
PyTorch 知识点总结
TensorTensor的基本数据类型有五种:32位浮点型:torch.FloatTensor。 (默认)64位整型:torch.LongTensor。32位整型:torch.IntTensor。16位整型:torch.ShortTensor。64位浮点型:torch.DoubleTensor。除以上数字类型外,还有 byte和chart型基本操作如下:# torch...原创 2019-07-08 19:12:47 · 1178 阅读 · 0 评论 -
学习python的数据处理
import pandas as pdtest_df = pd.read_csv("/Users/isabella/Downloads/test.csv")train_df = pd.read_csv("/Users/isabella/Downloads/train.csv")# 查看每一列的数据train_df.info()# 查看数据的统计特性train_df.describe...原创 2018-02-07 10:44:27 · 692 阅读 · 0 评论 -
处理样本不均衡的问题
1.扩大数据集2.换评价指标对于样本不均衡的数据来说,用精度来评估模型好坏是存在偏差的,因为它只反映了预测正确的结果如何,不能反映预测错误的情况。用“召回率(Recall)”、“精确率(Precision)”和“综合评价指标(F-Mmeasure)”来评估模型。3.数据集重采样上采样(过抽样,增少):让正反例样本一样多,通常是对较少的数据进行数据生成,让其与较多的数据一样多。如可采...原创 2019-06-26 15:27:42 · 1226 阅读 · 0 评论 -
如何在训练中设置深度学习参数
一、准确率低的原因:1.输入输出:比如标签错误的问题。2.超参数设置:学习率太高或太低都不行。3.数据模型不适配4.数据集构造:数据太小、分类不均衡(出现频率低的样本标签改为其他)、有噪声的标签、训练集合测试集分布不同(需要打乱数据)二、深度学习调参步骤:1.小数据(shuffle),简单模型入手设置优化器(比如Adam优化器学习速率3e-4),激活函数(比如ReL...原创 2019-06-20 16:32:35 · 4002 阅读 · 0 评论 -
如何理解极大似然估计,最大后验估计,贝叶斯估计,共轭先验分布
1.极大似然估计(也称最大似然估计)模型和观察数据X已知,模型参数未知。假设所有采样都是独立同分布的,得到让观察样本出现的概率最大的参数。的最大似然估计: 求最大似然函数估计值的一般步骤:(1)写出似然函数;(2)对似然函数取对数,并整理;(3)求导数,令导数为0,得到似然方程;(4)解似然方程,得到的参数即为所求2.最大后验估计是根据经验数据获得...原创 2019-06-19 23:20:13 · 1400 阅读 · 0 评论 -
正则L1和L2,以及L1不可导的处理(Proximal Algorithm近端算法)
L1正则化(lasso回归)是指权值向量w中各个元素的绝对值之和,通常表示为。L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择。使用场景:输入特征的维度很高,而且是稀疏线性关系。L2正则化(岭回归)是指权值向量w中各个元素的平方和然后再求平方根(可以看到Ridge回归的L2正则化项有平方符号),通常表示为。L2正则化可以防止模型过拟合(overfitting);一定程度...原创 2019-06-06 12:09:03 · 3107 阅读 · 0 评论 -
中文文本分类的总结
文本分类算法从机器学习的“人工特征 + lr/svm/xgboost”,到深度学习的"word embedding + DNN"、“language model + decoder”,不断演变。0.文本的预处理1)清洗数据:带有HTML标签、URL地址等非文本内容,长串数字或字母、无意义的文本。2)变形词识别和替换:特殊符号替换、同音近型替换(拼音首字母)、简繁替换3)停用词与标点...原创 2019-09-05 00:09:21 · 4388 阅读 · 2 评论