机器学习
贾公子
talk is cheap,show me the code
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
LASSO回归、岭回归和elastic回归
lasso和岭回归分别是在损失函数上加上L1正则项和L2正则项Elasticnet回归叫做弹性网络回归,同时结合了以上两种正则项Sklearn库中有sklearn.linear_model.ElasticNetCV和sklearn.linear_model.ElasticNet两个函数可供选择,前者可以通过迭代选择最佳的 λ 1 \lambda_1λ1和λ 2 \lambda_2λ2(当然你可以指定一组值),后者需要你指定λ 1 \lambda_1λ1和λ 2 \lambda原创 2021-07-20 09:37:10 · 574 阅读 · 0 评论 -
标准化/归一化方法
sklearn 的preprocessing提供了可以满足需求的归一化方法。1.standardScalar标准化数据通过减去均值然后除以方差(标准差),这种标准化方法经过处理后,数据符合标准正态分布,即均值为0,标准差为1.适用于,数据的分布本来就符合正态分布 x =(x - ?)/?。通常这种方法基本可用于有outlier的情况,但是,在计算方差和均值的时候outliers仍然会影响计算。所以,在出现outliers的情况下可能会出现转换后的数的不同feature分布完全不同的情况。2.min转载 2021-07-13 18:04:38 · 1723 阅读 · 0 评论 -
pandas求偏度skew
偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。偏度(Skewness)亦称偏态、偏态系数。表征概率分布密度曲线相对于平均值不对称程度的特征数。直观看来就是密度函数曲线尾部的相对长度。定义上偏度是样本的三阶标准化矩:DataFrame.skew(axis=None, skipna=None, level=None, numeric_only=None, **kwargs)参数:axis : {index (0), columns (1)}定义计算原创 2021-07-13 17:13:32 · 2007 阅读 · 0 评论 -
xgboost的详细讲解
这是目前为止看到最清晰讲解了,推到步骤很有逻辑性转载 2021-07-12 21:00:13 · 326 阅读 · 0 评论 -
搜索引擎算法
搜索引擎算法调研原创 2018-07-25 11:14:52 · 1947 阅读 · 0 评论 -
机器学习算法汇总
机器学习算法汇总转载 2018-07-25 11:19:22 · 722 阅读 · 0 评论 -
超全的机器学习&深度学习资料汇总,惠存!
转自:http://blog.sina.com.cn/s/blog_53a510ad0102vl7o.html转载 2018-12-22 12:22:02 · 488 阅读 · 0 评论 -
【集成学习】sklearn中xgboost模块的XGBClassifier函数
转自:https://www.cnblogs.com/pengwang52/p/9623093.html# 常规参数booster gbtree 树模型做为基分类器(默认) gbliner 线性模型做为基分类器 silent silent=0时,不输出中间过程(默认) silent=1时,输出中间过程 nthread nthread=-1时,使用全部CPU进行并...转载 2019-01-18 10:10:27 · 1287 阅读 · 0 评论 -
决策树--信息增益,信息增益比,Geni指数的理解
转自:https://www.cnblogs.com/muzixi/p/6566803.html决策树 是表示基于特征对实例进行分类的树形结构 从给定的训练数据集中,依据特征选择的准则,递归的选择最优划分特征,并根据此特征将训练数据进行分割,使得各子数据集有一个最好的分类的过程。 决策树算法3要素: 特征选择 决策树生成 决策树剪枝 部分理解:...转载 2019-01-18 15:18:33 · 2017 阅读 · 0 评论 -
Kaggle爆文:一个框架解决几乎所有机器学习问题
转自https://blog.youkuaiyun.com/gh13uy2ql0N5/article/details/78293745转载 2019-01-24 14:43:34 · 391 阅读 · 0 评论 -
CTR常用算法
广告点击率预估常用算法原创 2018-07-25 10:56:59 · 4027 阅读 · 0 评论 -
NLP算法和工具汇总
自然语言处理的算法和工具汇总原创 2018-07-25 10:54:01 · 2582 阅读 · 34 评论 -
优化算法总结
机器学习模型优化常用优化算法总结原创 2018-07-25 10:51:02 · 295 阅读 · 0 评论 -
机器学习:常见激活函数
激活函数定义了每个节点(神经元)输入和输出的函数。 常用的激活函数如下:原创 2018-05-03 09:25:18 · 254 阅读 · 0 评论 -
数据处理:one-hot encoding
One-Hot编码,又称为一位有效编码,主要是采用位状态寄存器来对个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。 在实际的机器学习的应用任务中,特征有时候并不总是连续值,有可能是一些分类值,如性别可分为“male”和“female”。在机器学习任务中,对于这样的特征,通常我们需要对其进行特征数字化,如下面的例子: 有如下三个特征属性: 性别:[“male”...转载 2018-05-03 17:49:18 · 338 阅读 · 0 评论 -
模型的评估与选择:查准率(precision),查全率(recall),F1,ROC,AUC
首先定义几个变量: True Positive: TP 预测为真,实际为真; True Negative: TN 预测为假,实际为假; False Positive:FP 预测为真,实际为假; False Negative:FN 预测为假,实际为真;查准率(precision)= TP/TP+FP 查全率(recall):TP/TP+FN举个栗子: 在对癌症是否为恶性的进行预测的转载 2018-05-04 10:57:04 · 4421 阅读 · 0 评论 -
过拟合的解决方法,正则化方法:L1和L2 regularization、数据集扩增、dropout
对于过拟合的解决方法的讲解,简单明了,受用~ https://blog.youkuaiyun.com/u012162613/article/details/44261657原创 2018-05-21 18:03:26 · 362 阅读 · 0 评论 -
基于ML-KNN的多标签分类算法
基于ML-KNN的多标签分类算法,内含python代码张敏灵老师论文《ML-kNN: a lazy learning approach to multi-label learning》详细讲解转载 2018-06-15 09:52:47 · 3419 阅读 · 0 评论 -
预处理之特征编码方法总结
(1)one-hot编码: 独热编码即 One-Hot 编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。 已知三个feature,三个feature分别取值如下: feature1=[“male”, “female”] feature2=[“from Europe”, “from US”, “from ...转载 2018-06-19 11:32:38 · 1591 阅读 · 0 评论 -
pandas.describe()参数的意义
count 1460.000000 mean 180921.195890 std 79442.502883 min 34900.000000 25% 129975.000000 50% 163000.000000 75% 214000.000000 max 755000.000000 Name: Sa...原创 2018-06-20 16:11:52 · 49494 阅读 · 0 评论 -
特征工程思维导图
关于特征提取的方法汇总原创 2018-07-25 10:48:12 · 908 阅读 · 0 评论 -
优化算法总结
机器学习模型优化常用优化算法总结原创 2018-07-25 10:50:57 · 407 阅读 · 0 评论 -
机器学习:常见的损失函数
常见的损失误差有五种: 1. 铰链损失(Hinge Loss):主要用于支持向量机(SVM) 中; 2. 互熵损失 (Cross Entropy Loss,Softmax Loss ):用于Logistic 回归与Softmax 分类中; 3. 平方损失(Square Loss):主要是最小二乘法(OLS)中; 4. 指数损失(Exponential Loss) :主要用于Adab...原创 2018-05-02 21:40:16 · 894 阅读 · 0 评论
分享