
机器学习
Parallax_2019
初极狭,才通人。复行数十步,豁然开朗。----T
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
线性回归之电力预测
import pandas as pd# pandas 读取数据data = pd.read_csv("C:/Users/Administrator/Desktop/data/ccpp.csv")data.head()X = data[["AT","V","AP","RH"]]print(X.shape)y = data[["PE"]]print (y.shape)&原创 2018-09-25 11:55:41 · 2403 阅读 · 5 评论 -
DBSCAN密度聚类
转自https://www.cnblogs.com/pinard/p/6208966.htmlDBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法,和K-Means,BIRCH这些一般只适用于凸样本集的聚类相比,DBSCAN既可以适用于凸样本集,也可以适用于...转载 2019-05-17 02:47:28 · 298 阅读 · 0 评论 -
特征工程之特征预处理
转载自https://www.cnblogs.com/pinard/p/9093890.html在前面我们分别讨论了特征工程中的特征选择与特征表达,本文我们来讨论特征预处理的相关问题。主要包括特征的归一化和标准化,异常特征样本清洗与样本数据不平衡问题的处理。1. 特征的标准化和归一化 由于标准化和归一化这两个词经常混用,所以本文不再区别标准化和归一化,而通过具体的标准化和归一化...转载 2019-05-17 02:34:56 · 373 阅读 · 0 评论 -
特征工程之特征表达
转载自https://www.cnblogs.com/pinard/p/9061549.html在特征工程之特征选择中,我们讲到了特征选择的一些要点。本篇我们继续讨论特征工程,不过会重点关注于特征表达部分,即如果对某一个特征的具体表现形式做处理。主要包括缺失值处理,特殊的特征处理比如时间和地理位置处理,离散特征的连续化和离散化处理,连续特征的离散化处理几个方面。1. 缺失值处理 ...转载 2019-05-17 02:33:04 · 241 阅读 · 0 评论 -
特征工程之特征选择
转载至https://www.cnblogs.com/pinard/p/9032759.html特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样是确定的步骤,更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。本文关注于特征选择部分。后面还有两篇会关注于特征表达和特征预处理。1. 特征的来源 在做数据分析的时候,特征的来源一般有两...转载 2019-05-17 02:29:36 · 155 阅读 · 0 评论 -
Adaboost,GBDT和XGboost算法
一: 提升方法概述提升方法是一种常用的统计学习方法,其实就是将多个弱学习器提升(boost)为一个强学习器的算法。其工作机制是通过一个弱学习算法,从初始训练集中训练出一个弱学习器,再根据弱学习器的表现对训练样本分布进行调整,使得先前弱学习器做错的训练样本在后续受到更多的关注,然后基于调整后的样本分布来训练下一个弱学习器。如此反复学习 ,得到一系列的弱学习器,然后 组合这些弱学习器,构成一...原创 2019-05-16 15:10:13 · 291 阅读 · 0 评论 -
GBDT如何分类
(GBDT是通过梯度下降(作为残差 的近似)更新的决策树集成的boosting模型)首先明确一点,gbdt 无论用于分类还是回归一直都是使用的CART 回归树。不会因为我们所选择的任务是分类任务就选用分类树,这里面的核心是因为gbdt 每轮的训练是在上一轮的训练的残差基础之上进行训练的。这里的残差就是当前模型的负梯度值 。这个要求每轮迭代的时候,弱分类器的输出的结果相减是有意义的。残差相减是有...转载 2019-05-15 22:20:14 · 6710 阅读 · 1 评论 -
L1正则化和L2正则化
为了降低过拟合风险,需要控制模型复杂度,自然想到减少参数个数,但是这个问题不易直接解决,可以通过放宽条件控制。L1正则化(嵌入式特征选择)——又称参数稀疏性惩罚——lasso reg添加优化条件:这会使参数条件空间有明显的凸角,这些突出点显然会成为联合优化时的最优解,但同时这些这些凸点中又会有较多的0值(由其限制条件可见,凸点都在坐标轴上),因此L1范数会更易得到稀疏解,有一定的特征选择...原创 2019-05-11 00:18:41 · 328 阅读 · 0 评论 -
线性回归从0实现——mxnet
%matplotlib inlinefrom IPython import displayfrom matplotlib import pyplot as pltfrom mxnet import autograd, ndimport randomnum_inputs = 2num_examples = 1000true_w = [2, -3.4]true_b = 4.2fe...原创 2019-03-16 14:15:46 · 220 阅读 · 0 评论