
机器学习
文章平均质量分 92
_zhj
加油!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
CART树使用mae比使用mse慢很多
跑实验时,数据集大约是2000*100,使用随机森林128课树做回归,发现使用mae所花的时间是使用mse时间10倍以上。然后单独在CART回归树做实验,也是同样的问题,为什么??留坑...原创 2019-10-24 11:31:00 · 626 阅读 · 0 评论 -
numpy实现KNN代码
代码参考征哥博客:传送门简介:KNN的基本思想是根据与测试样本相邻最近的k个样本的标签,去决定该样本的预测值。KNN有三个要素:k值选择,距离度量方式和决策准则。KNN没有显式的训练过程,计算基本都在预测阶段。1. K值选择一般先选取一个较小的k值,然后通过交叉验证来确定k的取值。2. 距离度量方式一般选择欧氏距离、曼哈顿距离或余弦相似度。3. 决策准则一般分类...原创 2019-09-12 18:51:37 · 2170 阅读 · 0 评论 -
numpy实现K-Means代码
参考征哥博客:传送门K-Means步骤:1、初始化k个聚类中心2、计算每个样本到每个聚类中心的距离,并划分到距离最近的簇中(M步)3、根据每个簇中的样本重新计算聚类中心(E步)4、重复2、3,直到聚类中心不再发生改变复杂度分析:O(kndp),其中k是聚类个数,n是样本个数,d是特征维度,p是迭代次数代码:import numpy as npclass ...原创 2019-09-11 21:40:18 · 995 阅读 · 2 评论 -
CNN卷积相关计算
以AlexNet为例一、卷积/池化尺寸计算计算公式:n’ = (n - k + 2p) / s + 1其中n是输入feature map大小,k是卷积核大小,p是padding大小,s是步长eg:输入feature map:227*227*3,卷积核11*11*3,步长4,数量96(224 - 11) / 4 + 1 = 55所以卷积后的feature m...原创 2019-09-11 10:49:32 · 1879 阅读 · 0 评论 -
AUC曲线计算方法及代码实现
参考:https://www.cnblogs.com/peizhe123/p/5081559.htmlAUC计算1. 根据定义Aera Under Curve,计算面积。样本有限,所以得到的AUC曲线一般是个阶梯状,所以计算这些阶梯的面积即可。先按score排个序,然后从头遍历一遍,把每个score作为划分阈值,可以得到对应的TPR和FPR,计算出底下的面积。更直观的计算方法,参考《百......原创 2019-08-09 20:33:47 · 6009 阅读 · 0 评论 -
机器学习分类模型评估
常用指标:错误率,精度(Accuracy),Precision,Recall,F1,P-R曲线,ROC与AUC给定样本集:对二分类问题,可将样例根据其实际类别与学习器预测类别的组合划分为真正例(true positive,TP)、假正例(false positive,FP)、真反例(true negative,TN)、假反例(false negative,FN)四种情况,如下图所示,...转载 2019-08-01 22:21:19 · 499 阅读 · 0 评论 -
TensorFlow BatchNormal
原理篇可以参考这几个:https://www.cnblogs.com/guoyaohua/p/8724433.htmlhttps://www.cnblogs.com/makefile/p/batch-norm.htmlhttps://blog.youkuaiyun.com/qq_25737169/article/details/79048516 本文调用的batch normal...原创 2019-08-04 20:19:41 · 676 阅读 · 0 评论 -
使用Tensorflow实现简单的线性回归和神经网络
一、流程整体流程基本分为三步:1、定义计算图的结构2、定义损失函数及选择优化算法3、生成会话,训练,预测二、线性回归import tensorflow as tfimport numpy as npclass LinearRegression: def __init__(self, dim, lr=0.01): self.dim = dim...原创 2019-07-07 11:09:54 · 866 阅读 · 0 评论 -
SVM几点理解
以下内容是我在学习完《统计学习方法》及查阅相关资料后,对svm的一些疑惑的理解,可能还有理解不到位的地方,如有不对,请及时指出。一、模型发展样本线性可分 -> 硬间隔最大化样本近似线性可分 -> 软间隔最大化样本线性不可分 -> 核函数+软间隔最大化二、超平面是否唯一1、硬间隔最大化时,解是唯一的,即分离超平面wx+b=0中w和b是唯一的。证明相比之下...原创 2019-06-30 14:55:41 · 514 阅读 · 0 评论 -
GBDT残差与负梯度
GBDT采用加法模型(即基函数的线性组合)和前向分步算法(每步只求解一个弱学习器)。第m步的模型是:通过经验风险极小化确定下一棵树的参数Θm:对于GBDT中每棵树拟合的是什么,有两种解释,第一种是残差,第二种是负梯度。其实残差是负梯度在损失函数为平方损失时的特殊情况。1、残差前m-1棵树得到的模型是,即对x的预测值为,真实值为y,那么残差就是真实值与预测值的差值,即:...原创 2019-07-02 19:15:38 · 3067 阅读 · 0 评论 -
LANL Earthquake Prediction收获
一、简介比赛地址:传送门描述:该比赛目标是使用地震信号来预测地震发生的时间。训练数据:两列,第一列是地震的信号数值acoustic_data,第二列是还有多久发生地震time_to_failure(记为TTF)。数据量是629145480行,即629145480个acoustic_data和TTF。测试数据:有2624个测试文件,每个文件有150,000行数据,只有acoustic...原创 2019-06-11 22:28:38 · 933 阅读 · 2 评论 -
论文学习——基于查询的workload预测(CMU)
一、简介论文题目:Query-based Workload Forecasting for Self-Driving Database Management Systems发表在2018SIGMOD,来自cmu的数据库组(这个组真的很厉害)这篇论文主要讲数据库workload预测的问题。因为要实现数据库self-driving(如选择合适的时机在合适的列上自动创建索引),应该根据将要到...原创 2019-06-20 11:02:03 · 2541 阅读 · 5 评论 -
CV验证
本文主要介绍网格搜索、k折CV验证和嵌套CV验证(nested)一、网格搜索网格搜索的目的是对超参数调优,通过尝试列举所有超参数组合得到最好的模型best_estimator,使用best_estimator来做预测。文档代码:from sklearn import datasetsfrom sklearn.ensemble import RandomForestRegre...原创 2019-06-13 15:34:58 · 2165 阅读 · 0 评论 -
监督学习与无监督学习
机器学习的常用方法,主要分为有监督学习(supervised learning)和无监督学习(unsupervised learning)。监督学习,就是人们常说的分类,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的,也就转载 2017-08-31 18:34:13 · 478 阅读 · 0 评论 -
机器学习——线性回归(梯度下降和正规方程)
以下内容转载自:http://blog.youkuaiyun.com/xiazdong/article/details/7950084http://blog.youkuaiyun.com/xiazdong/article/details/7950111本文会讲到:(1)线性回归的定义(2)单变量线性回归(3)cost function:评价线性回归是否拟合训练集的方法(转载 2017-09-07 20:31:50 · 2697 阅读 · 0 评论 -
Octave 机器学习常用命令
Octave 机器学习常用命令 A、Basic operations and Moving data around1. 在命令行模式用shift + 回车即可附加下一行输出2. length命令apply到矩阵时返回较高的一维的dimension3. help + 命令是显示命令的简要帮助信息4. doc + 命令 是显示命令的详细帮助文档5. who 命令 显示 当转载 2017-09-04 11:20:45 · 2148 阅读 · 0 评论