
数据挖掘
DataAlgo
想玩数据又想搞模型!
展开
-
训练集、验证集、测试集以及交叉验证的理解
训练集、验证集、测试集以及交验验证的理解转载 2022-03-08 18:17:51 · 502 阅读 · 0 评论 -
python实现JAVA的compare字符串对比
python实现java的compare原创 2022-03-08 15:14:01 · 733 阅读 · 0 评论 -
python的round函数遇到问题TypeError: Invalid argument, not a string or column:
python的round函数碰到这种问题TypeError: Invalid argument, not a string or column: 1.992 of type <type 'float'>. For column literals, use 'lit', 'array', 'struct' or 'create_map' function.很简单,加这个就可以了!import builtinsround = getattr(builtins, "round")...原创 2021-11-03 19:18:28 · 1907 阅读 · 0 评论 -
数据预处理笔记
1.数据质量的定义:准确性、完整性、一致性、时效性、可信性和可解释性。 2.数据清理:填补缺失的值,光滑噪声同时识别离群点,纠正数据的不一致性。 填补缺失值的方法: 1)忽略元祖(缺少类标号的时候通常可以这样做); 2)人工填写缺失值(费时费力); 3)使用一个全局常量填充缺失值(方法简单但可靠性差); 4)使用属性的中心度量填充缺失值(使用均值或者中位数填充); 5)使用与给定元祖属原创 2016-08-31 10:56:09 · 610 阅读 · 0 评论