
数据挖掘
淘气淘的宝宝
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
impala 同时使用group by 和 聚合函数
解决impala出现select list expression not produced by aggregation output (missing from GROUP BY clause?): 的问题原创 2023-03-02 20:55:01 · 2432 阅读 · 0 评论 -
python连接数据库
python连接不同的数据库原创 2022-06-07 11:21:55 · 3936 阅读 · 0 评论 -
2021-07-20画决策树
from sklearn.datasets import load_irisimport pydotplusfrom IPython.display import Imagefrom sklearn import tree#训练模型iris=load_iris()clf=tree.DecisionTreeClassifier()clf=clf.fit(iris.data,iris.target)#绘图dot_data=tree.export_graphviz(decision_tree=转载 2021-07-20 20:43:27 · 140 阅读 · 0 评论 -
机器学习基础 - 偏度、正态化以及 Box-Cox 变换
1引言对于数据挖掘、机器学习中的很多算法,往往会假设变量服从正态分布。例如,在许多统计技术中,假定误差是正态分布的。这个假设使得能够构建置信区间并进行假设检验。因此,在数据预处理阶段会查看目标变量以及各个特征是否服从或接近正态分布,如果偏离就通过一定变换将该数据的分布正态化。一般来说,数据的直方图如果单峰并近似正态但看上去又有些扭曲,可以考虑正态化。比如整体看上去还是一个山峰,但可能峰顶很尖或者整座山往左/往右倾斜了。这些现象如何用数字量化呢?偏度(skewness)和峰度(Kurtosis)就..转载 2021-07-16 17:34:39 · 3208 阅读 · 1 评论