
ml
owenbb
这个作者很懒,什么都没留下…
展开
-
特征选择总结
当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。除方差法外,本文介绍的其他方法均从相关性考虑.根据特征选择的形式又可以将特...原创 2019-11-02 15:34:43 · 383 阅读 · 0 评论 -
《百面机器学习》 --集成学习笔记
发现要提高自己总结能力,尽量抽出时间写高质量的博客记录自己的学习。提高自己效率!!!1、集成学习分为几种?异同?1.1 Boosting Boosting方法训练基分类器采用串行的方式,各个基分类器有依赖。 基本思想(迭代时学习):将基分类器层层叠加,每一层在训练时候,对前一层基分类器分错的样本给更高的权重。测试时,根据各层分类器结果加权得到最终结果。 跟人类学习很像,对犯了的...原创 2019-06-24 12:21:29 · 1263 阅读 · 0 评论 -
TF-IDF原理
TF-IDF与余弦相似性的应用(一):自动提取关键词转载 2018-10-04 15:45:39 · 289 阅读 · 0 评论 -
随机森林调参代码
### 随机森林调参start = time()from sklearn.grid_search import GridSearchCVrf = RandomForestClassifier(n_jobs = 4,random_state=0)param_1 = {'n_estimators': list(range(30,91,10)), 'max_depth':...原创 2018-04-27 10:52:30 · 1026 阅读 · 0 评论 -
机器学习实战总结
1、决策树和随机森林不需要归一化2、sklearn randomforest MemoryError: could not allocate 8405385216 bytes解决:设置n_jobs = 1。原因是训练数据会复制到多个进程中。...原创 2018-05-10 19:38:35 · 1513 阅读 · 1 评论 -
lgbm和xgboost使用教程
# coding: utf-8# pylint: disable = invalid-name, C0111import lightgbm as lgbimport pandas as pdfrom sklearn.metrics import mean_squared_errorfrom sklearn.model_selection import GridSearchCV# l...原创 2018-04-24 14:54:25 · 20497 阅读 · 3 评论 -
特征选择 feature_importance
%matplotlib inlineimport matplotlib.pyplot as pltimport seaborn as snscolor = sns.color_palette()sns.set_style('darkgrid')features_list = X_train.columns.valuesfeature_importance = rf.feature_...原创 2018-04-24 09:56:43 · 23583 阅读 · 0 评论 -
CTR Prediction资料
美团-深入FFM原理与实践ctr预估之DeepFM用户在线广告点击行为预测的深度学习模型闲聊DNN CTR预估模型PNN githubOwen zhang deepctr知乎文末好多链接深度学习在CTR预估中的应用 | CTR深度模型大盘点...原创 2018-04-11 18:32:17 · 1036 阅读 · 0 评论 -
多标签问题
例子kaggle例子知乎sk-mulilearn记:多标签分类问题github-BPMLL原创 2018-04-24 16:13:27 · 274 阅读 · 0 评论