
Machine Learning
机器学习
yanhe156
这个作者很懒,什么都没留下…
展开
-
如何计算样本权重和类别权重? 样本权重怎样起作用?
LightGBM 的参数 class_weight = balanced 时, 样本权重是这样计算的 n_samples / (n_classes * np.bincount(y)) 。np.bincount() 就是统计每一种取值的数量。对某个类别的样本,权重是 n_sample / (n_classes* 该类别样本总数)。如果每个类别的数量相同,都是 n_samples / n_class...原创 2019-10-16 19:16:26 · 6576 阅读 · 0 评论 -
sklearn StratifiedKFold, KFold的shuffle参数
我一直有一个疑问,这个shuffle参数到底做了什么,会不会打乱样本的顺序,导致我想生成训练集的预测结果后,再拼接到ID上时顺序就对应不上了。shuffle = Falseimport numpy as npfrom sklearn.model_selection import KFolda = np.arange(10)kfold = KFold(n_splits=3, shuffle...原创 2019-05-25 11:13:16 · 7857 阅读 · 0 评论 -
关于AutoML系统的思考
不说NAS,一个AutoML系统真的很难真正Auto,我自己感觉有下面几点的问题。看了一些比赛的数据集,发现很多真实的业务是非常复杂的,建模方式没有那么直接,比如19年魔镜杯,预测用户每个月的还款日期和金额,需要思考一下怎么建模,好像一般是做成当成多分类来做。不能单纯的分成回归和分类问题。比如在预测性维护中,可能是对一个时间序列做分类。时间序列和非时间序列处理起来是差很多的,需要分成两...原创 2019-10-11 15:12:35 · 416 阅读 · 0 评论 -
论文看不懂怎么办?
Ng在公开课里说自己第一次看Yolo论文时很难弄懂到底怎么实现的 ,很多顶尖的研究员也有看不懂论文的时候,这时候就需要去看源代码或咨询作者才能弄清楚实现细节。https://mooc.study.163.com/learn/2001281004?tid=2001392030#/learn/content?type=detail&id=2001729338...原创 2018-11-16 14:34:15 · 3506 阅读 · 0 评论 -
机器学习中的一些常用函数
总结各种Loss Function以及其优良性质。原创 2018-12-11 21:27:02 · 1274 阅读 · 1 评论 -
安装xgboost时卡在下载scipy
问题:为了能够用GPU运行xgboost, 选择从github上clone源码安装. 按照文档使用源码编译xgboost后,编译python包时,卡在下载scipy,但是我scipy已经是最新的了.解决方法:编辑器打开 setup.py , 注释掉这两行 install_requires=[ #'numpy', #'scipy', ...原创 2018-12-08 21:05:51 · 303 阅读 · 0 评论 -
一周算法实践day1: 模型构建
1基本使用要点csv是常用的数据存储格式,尤其是一些数据竞赛,pandas可以方便的读写csv文件data_all = pd.read_csv('./data_all.csv')data_all.to_csv('./submission.csv', index=False) sklearn中各种算法的调用方法都是差不多的,基本上有以下四个函数:model = ..() # 初始...原创 2018-12-08 23:31:30 · 312 阅读 · 0 评论 -
一周算法实践day3: 模型评估
1 任务记录7个模型(逻辑回归、SVM、决策树、随机森林、GBDT、XGBoost和LightGBM)关于accuracy、precision,recall和F1-score、auc值的评分表格,并画出ROC曲线。2 遇到的问题对ROC曲线和AUC值的解释3 不同模型的多种指标模型AccuracyPrecisionRecallF1-ScoreROC_AUC...原创 2018-12-13 18:44:30 · 624 阅读 · 0 评论 -
一周算法实践day4: 模型调优
1 任务2 完整代码及注释# -*- coding: utf-8 -*- from __future__ import print_functionimport pandas as pdimport numpy as npimport matplotlib.pyplot as plt# 引入要用到的评价函数from sklearn.metrics import precision_...原创 2018-12-15 18:58:05 · 360 阅读 · 0 评论 -
一周算法实践day2:集成模型构建
1任务构建随机森林、GBDT、XGBoost和LightGBM这4个模型,评分方式任意。2 遇到的问题xgboost 安装gpu版本时遇到的问题3 完整代码和注释from __future__ import print_functionfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.ensemble ...原创 2018-12-11 16:42:08 · 348 阅读 · 0 评论 -
ML中的数据预处理
原始数据(必须)要做 Normalization!在进行数据分析的时候,什么情况下需要对数据进行标准化处理? 见Maigo大佬的回答。如果不做Normalization 会出现什么后果?今天遇到一种情况,原始数据范围大概是(5000,10000),神经网络第一层是卷积,激活函数是sigmoid。直接将原始数据作为神经网络的输入,最后发现对不同样本,神经网络的输出竟然都是相同的。。。训练时l...原创 2018-10-27 00:07:19 · 299 阅读 · 0 评论