
机器学习
Han_Sen
机器学习,数据挖掘研究者,痴迷于该领域
展开
-
[scikit-learn] 特征二值化编码函数的一些坑
1. 前言2. 问题起源2.1. 对付数值型类别变量2.2. 对付字符串型类别变量2.3. 无用的尝试3. 另一种解决方案4. 参考资料1. 前言这几天埋头撰写『优雅高效地数据挖掘——基于Python的sklearn_pandas库』 一文,其中有一部分涉及如何批量并行地进行特征二值化,在此过程中发现了 scikit-转载 2016-11-21 15:14:58 · 8130 阅读 · 0 评论 -
在sklearn中使用DataFrame的一些问题(训练集与测试集列顺序问题)
问题1 DataFrame能直接做训练集和测试集吗?猜想最近使用sklearn的模型的时候发现训练集可以直接传入pandas的DataFrame进行训练,而且进行预测的时候也可以直接传入DataFrame,我以为sklearn可以直接识别DataFrame中数据列的顺序,即使列的顺序是乱的也可以直接进行预测,于是做了个测试。测试这里训练集的x_train转载 2016-11-21 12:20:58 · 10441 阅读 · 0 评论 -
DataFrameMapper做特征工程
前言在数据挖掘流程中,特征工程是极其重要的环节,我们经常要结合实际数据,对某些类型的数据做特定变换,甚至多次变换,除了一些常见的基本变换(参考我之前写的『数据挖掘比赛通用框架』)外,还有很多非主流的奇技淫巧。所以,尽管有sklearn.pipeline这样的流水线模式,但依然满足不了一颗爱折腾数据的心。好在,我找到了一个小众但好用的库——sklearn_pandas,能相对简洁地进行特征工转载 2016-11-21 16:44:14 · 9936 阅读 · 0 评论 -
Ubuntu16.04下安装ipython(配置远程访问)
一、安装ipythona) 安装pip工具终端输入以下命令:sudo apt-get install python-pipb) 安装ipython终端输入以下命令:sudo apt-get install ipythonc) 安装ipython[notebook]终端输入以下命令:sudo apt-get install转载 2016-11-24 14:43:22 · 2723 阅读 · 0 评论