
sklearn
来杯柠檬茶
记录学习的过程
展开
-
sklearn-01-特征工程:特征提取
1 字典类型的特征抽取(结果是one-hot编码)API:from sklearn.feature_extraction import DictVectorizer语法:dv = DictVectorizer(sparse=False) #实例化dv.fit_transform() # 字典 --> one hot编码 dv.inverse_transform() # ...原创 2019-08-12 14:22:52 · 415 阅读 · 0 评论 -
sklearn -分类算法 -决策树
信息熵(香农提出)= 每一种类别的概率 * log 概率 ,求和 ,再乘以 -1信息熵 衡量不确定性,信息熵越小,不确定性也越小。信息熵越大,不确定性越大。信息增益 :表示得知特征A的信息之后,信息熵减少的程度。= 初始信息熵 – A条件信息熵初始信息熵: 只看目标值 。是(9/15)和否(6/15)初始信息熵 = -1 (9/15log 9/15+6/15* log...原创 2019-08-12 16:47:25 · 248 阅读 · 0 评论 -
sklearn - 分类算法 -随机森林
随机森林 : 多颗 决策树的集成学习方法。集成学习方法:建立多个模型来解决一个问题。模型之间独立学习和独立预测。最后的预测结果按照大多数合并为一个最终预测结果,这个最终的预测结果好于单个模型的预测。随机森林=随机,多次的创建决策树创建决策树的过程如下:有N个样本,M个特征每次从样本集合里随机选1个样本,重复N次。 抽样有放回。(会出现重复抽取到样本)随机在M个特征里面,...原创 2019-08-12 17:16:11 · 1008 阅读 · 0 评论 -
sklearn - 网格搜索的使用
GridSearchCv 来生成超参数的组合,自动选择效果最好的 参数。api :from sklearn.model_selection import GridSearchCV例子:rfc = RandomForestClassifier()para_dict ={'n_estimators':[88,99,100,111,122,120],'max_depth':[8,9,10,...原创 2019-08-12 17:20:16 · 2615 阅读 · 2 评论 -
sklearn-回归算法-线性回归
算法思想: 根据历史数据,找到最佳的一组权重 w,和偏置b,根据原创 2019-08-23 14:24:09 · 417 阅读 · 0 评论