
机器学习
Jiiaaaoooo
这个作者很懒,什么都没留下…
展开
-
keras简单实现神经网络
import kerasimport numpy as npimport matplotlib.pyplot as pltfrom keras.models import Sequentialfrom keras.layers import Dense# from keras.optimizers import adamx_data=np.linspace(-0.5,0.5,200...原创 2020-04-27 19:12:47 · 350 阅读 · 0 评论 -
深度学习优化方法sgd和momentum
优化框架https://zhuanlan.zhihu.com/p/322306231、计算关于当前参数的梯度2、计算历史梯度的一阶动量和二阶动量3、计算当前时刻下降梯度4、更新下一个参数,用当前参数减去第三步计算的值。sgd方法下降梯度直接就是用的第1步的结果。但是如果学习率大,一步会迈的太远,容易震荡https://blog.youkuaiyun.com/tsyccnh/article/de...原创 2020-04-11 14:41:50 · 643 阅读 · 0 评论 -
神经网络dropout
对损失函数进行优化,有时会造成过拟合现象,降低模型的泛化能力。即模型在训练集上表现好,而在测试集上表现差。防止神经网络过拟合现象的方法有增加正则化项、dropout和调节学习率等方法。本节为防止过拟合,设置dropout,限制模型的复杂度。在训练时,以概率p随机去掉部分神经元,作用于小批量数据,每次的训练的神经网络是原水神经网络的子集,相当于提供了一种轻量级的bagging方法。在测试时,每个神经...原创 2020-03-20 12:44:55 · 375 阅读 · 0 评论 -
smote算法
解决样本不平衡问题主要有以下几种方法,但是由于时间紧迫,大概浏览了一下,决定使用smote算法https://zhuanlan.zhihu.com/p/78508502smote算法原理和流程https://blog.youkuaiyun.com/niutingbaby/article/details/96104814smote python包实现https://pypi.org/project/i...原创 2020-03-13 21:48:18 · 954 阅读 · 0 评论 -
数据映射到任意区间
参考链接:https://blog.youkuaiyun.com/willduan1/article/details/80448493原创 2020-03-10 12:42:41 · 1136 阅读 · 0 评论 -
k折交叉验证
将数据集分成k分k-1份用来训练,1份用来测试,遍历所有数据程序:kfold = StratifiedKFold(n_splits=number, random_state=1).split(x, y)for k, (train, test) in enumerate(kfold):#k表示k折,train和test是索引,在训练集和测试集时会保证每次标签值分配均匀,避免出现一个训练集或...原创 2020-03-10 12:40:22 · 223 阅读 · 0 评论 -
回归预测三大评价指标MAE RMSE MAPE
https://www.laugh12321.cn/2019/01/02/evaluation_index_with_Linear_Regression/#原创 2020-03-02 16:42:54 · 3006 阅读 · 0 评论 -
gbdt梯度下降树和xgboost
参考链接:https://www.cnblogs.com/bnuvincent/p/9693190.html训练好一个弱分类器后,得到损失函数的负梯度,将损失函数的负梯度作为训练下一个弱分类器的标签。将所有弱分类器的和,作为最终结果。...原创 2020-02-11 11:32:07 · 796 阅读 · 0 评论 -
bagging和boosting
bagging有放回抽样,各分类器之间没有关联例如随机森林boosting分类器的损失是下一个分类器的训练标签,各分类器之前有关联例如xgboost原创 2020-02-10 15:10:08 · 175 阅读 · 0 评论 -
分类树和回归树
对于树重要的是要找到选择节点(从多个属性中选择一个)和节点划分值(一个属性的某个取值),之后把数据集划分成n个部分,再重复进行下去对于分类树,划分依据是信息熵、基尼系数对于回归树,划分依据是mse,取一条路径上的y的平均值作为预测值...原创 2020-02-09 15:11:07 · 460 阅读 · 0 评论 -
python 线性回归
https://blog.youkuaiyun.com/hubingshabi/article/details/80172608原创 2020-01-09 14:17:25 · 177 阅读 · 0 评论 -
机器学习线性回归评价指标
https://www.laugh12321.cn/2019/01/02/evaluation_index_with_Linear_Regression/原创 2019-12-30 17:26:36 · 583 阅读 · 0 评论 -
参数调优
参考链接:原理介绍:https://www.jianshu.com/p/55b9f2ea283b随机森林参数调优:https://www.cnblogs.com/pinard/p/6160412.htmlhttps://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html调参其...原创 2019-12-29 21:21:46 · 277 阅读 · 0 评论 -
特征选择
参考链接:特征选择:https://zhuanlan.zhihu.com/p/37310887https://www.zhihu.com/question/28641663关于多重共线性:https://zhuanlan.zhihu.com/p/56793236在得到数据之后主要会进行以下操作1、需要对数据进行异常值、缺失值的筛选2、得到将数据表示成机器能识别的数字3、对于单个特...原创 2019-12-29 17:04:20 · 326 阅读 · 0 评论 -
随机森林
参考文章:https://blog.youkuaiyun.com/zjuPeco/article/details/77371645基本原理两个随机抽样:1数据集又放回随机抽样,生成多个训练集(bootstrap)2对每个数据集的特征随机抽样得到的每个样本集采用决策树的划分方法生成多个决策树,不剪枝得到的随机森林对测试集测试,用票选法决定结果特征重要性评估用基尼指数评价程序:imp...原创 2019-12-29 12:47:54 · 144 阅读 · 0 评论 -
假设检验和方差分析
假设检验:作用:统计学中的等于符号在有随机性参与的数学计算中,理论值和实验取样后算出来的计算值有一定差距,假设检验的用处是告诉你是对的。判断样本与样本,总体与样本的差异是由抽样误差引起的还是本质差别造成的统计推理。原理是先对总体特征做出假设,通过抽样研究的统计推理,对此假设应该被接收还是拒绝做出推断显著性检验定义:统计假设检验的一种,检测科学实验中实验组与对照组之间是否有差异及差异是否显著...原创 2019-12-16 16:23:06 · 3146 阅读 · 0 评论 -
数据归一化和标准化
原理:https://blog.youkuaiyun.com/program_developer/article/details/78637711python库:https://blog.youkuaiyun.com/ARPOSPF/article/details/80787353针对的是每列数据,一个维度的数据,不是每行的,不是多维度之间的不涉及距离、方差、协方差运算时,使用z-score效果更好...原创 2019-12-14 14:31:09 · 255 阅读 · 0 评论 -
pca主成分分析
方差越大,数据越分散,数据的某个特征维度上越分散,该特征越重要协方差为0,不相关将一组N维向量降到K维,选择K个单位正交基,原始数据变换到这组基上时,各特征两两协方差为0,特征的方差尽可能大协方差矩阵https://blog.youkuaiyun.com/a8039974/article/details/81285238不同维度之间的协方差matlab协方差矩阵计算方法1:mysample=f...原创 2019-12-13 22:29:31 · 213 阅读 · 0 评论 -
数据描述
1数据字典2数量3缺失数据4异常值5数据类型6特征7特征相关性回归处理流程去除其他特征,或其他特征保持不变,这个特征对OutPut的影响计算回归系数选择重要特征训练模型参数计算校正决定系数计算f-test计算p-value逐个加上特征排除多重共线性画出Q-Q plot,计算偏度和斜度计算t-statistic lower bound upper bound...原创 2019-11-26 21:43:15 · 368 阅读 · 0 评论 -
时间序列处理(待更新)
周期计算预测方法:时域分析频域分析原创 2019-11-13 22:23:30 · 240 阅读 · 0 评论 -
高斯过程/贝叶斯回归
线性回归先验和后验概率先验:未知条件下,根据直觉对事情的猜测后验:事情已经发生,这个事情由某个因素引起的可能性的大小。由结果推原因。可以表示为p(原因|结果)贝叶斯回归...原创 2019-11-11 21:09:57 · 1718 阅读 · 0 评论 -
异常值检测算法
LOF一个点p,和邻域内几个点oo的密度(平均值)/p的密度周围点的密度比p大,那p肯定异常如果用knn,找出距离最近的k个点,化为一类。高密度区容易把不是异常值的也化成异常值,全局采用一个阈值,不能处理不同的密度区域。但是lof算法是局部的几个点的密度的比值...原创 2019-08-22 22:36:47 · 471 阅读 · 0 评论 -
EM算法和高斯混合模型GMM
参考链接:https://www.zhihu.com/question/27976634https://www.jianshu.com/p/1121509ac1dc更新中……动机:由于含有隐蔽量,不能直接用极大似然估计估计参数。想法:推倒GMM和K-Means的联系和区别...原创 2019-08-21 11:31:27 · 250 阅读 · 0 评论 -
决策树
参考链接:https://www.jianshu.com/p/d153130b813fhttps://blog.youkuaiyun.com/am290333566/article/details/81187562更新中……我觉得明白决策树算法主要有三个点:1决策树生成的整体过程(递归、三个停止条件)2最优划分节点选择(三个算法ID3\C4.5\CART)3剪枝(预剪枝、后剪枝)1、决策树生...原创 2019-08-19 16:16:34 · 449 阅读 · 0 评论 -
时间序列异常值检测算法
1、lof把时间序列看成多维数据官方文档:https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.LocalOutlierFactor.html#sklearn.neighbors.LocalOutlierFactor算法原理讲解:https://blog.youkuaiyun.com/YE1215172385/arti...转载 2019-07-28 17:52:49 · 4300 阅读 · 0 评论 -
线性回归
可以用假设检验和学生化残差验证模型的准确和可靠性原创 2019-05-06 21:55:22 · 177 阅读 · 0 评论 -
python聚类算法kmeans/kmeans++最佳聚类数目选择
python聚类算法kmeansfrom sklearn.cluster import KMeansestimator =KMeans(n_clusters=3)estimator.fit(data)label_pred = estimator.labels_#聚类标签centroids = estimator.cluster_centers_#聚类中心...原创 2019-04-20 22:00:00 · 5866 阅读 · 0 评论