
机器学习
来杯柠檬茶
记录学习的过程
展开
-
sklearn -特征工程-预处理
1 归一化:列数据映射到0-1之间(受异常点影响)api:from sklearn.preprocessing import MinMaxScaler案例:from sklearn.preprocessing import MinMaxScalerdef minmaxscaler(): data = [[90,2,10,40], [60,4,15,...原创 2019-08-12 14:39:52 · 203 阅读 · 0 评论 -
sklearn -分类算法 -决策树
信息熵(香农提出)= 每一种类别的概率 * log 概率 ,求和 ,再乘以 -1信息熵 衡量不确定性,信息熵越小,不确定性也越小。信息熵越大,不确定性越大。信息增益 :表示得知特征A的信息之后,信息熵减少的程度。= 初始信息熵 – A条件信息熵初始信息熵: 只看目标值 。是(9/15)和否(6/15)初始信息熵 = -1 (9/15log 9/15+6/15* log...原创 2019-08-12 16:47:25 · 248 阅读 · 0 评论 -
sklearn - 分类算法 -随机森林
随机森林 : 多颗 决策树的集成学习方法。集成学习方法:建立多个模型来解决一个问题。模型之间独立学习和独立预测。最后的预测结果按照大多数合并为一个最终预测结果,这个最终的预测结果好于单个模型的预测。随机森林=随机,多次的创建决策树创建决策树的过程如下:有N个样本,M个特征每次从样本集合里随机选1个样本,重复N次。 抽样有放回。(会出现重复抽取到样本)随机在M个特征里面,...原创 2019-08-12 17:16:11 · 1008 阅读 · 0 评论 -
sklearn - 网格搜索的使用
GridSearchCv 来生成超参数的组合,自动选择效果最好的 参数。api :from sklearn.model_selection import GridSearchCV例子:rfc = RandomForestClassifier()para_dict ={'n_estimators':[88,99,100,111,122,120],'max_depth':[8,9,10,...原创 2019-08-12 17:20:16 · 2615 阅读 · 2 评论