- 博客(22)
- 收藏
- 关注
原创 数据仓库、数据湖与湖仓一体技术笔记
海量存储瓶颈:关系数据库横向扩展性差,难应对TB级数据增长。多类型数据支持不足:仅能处理结构化数据,无法兼容半/非结构化数据。计算能力有限:TB级数据处理时性能急剧下降。定位:基于Hadoop的数据仓库工具,提供类SQL接口(HiveQL)。底层依赖存储:HDFS计算:MapReduce/Tez/Spark核心特点批处理导向:适合静态数据分析,非实时场景。ETL工具链:内置数据提取、转换、加载能力。
2025-08-01 16:53:39
1114
原创 二、机器学习模型评估与选择
(μ−ε0)服从自由度为k−1k - 1k−1的t分布。交叉验证t检验:用于比较两个学习器,对每对测试错误率求差进行t检验。McNemar检验:适用于二分类问题,判断两学习器性能是否相同。Friedman检验与Nemenyi后续检验:判断多个算法性能是否相同,若不同则用Nemenyi后续检验进一步区分。1.5 偏差与方差偏差 - 方差分解公式:E(f;D)=variance+bias2+noiseE(f;D) = variance + bias^{2} + noiseE(f;D)=var
2025-01-27 10:39:48
1012
原创 组合和堆叠方法
之后,我们在折叠2上从头开始训练模型,并在折叠1上进行预测。现在,为了合并这些模型,我们将折叠1和折叠1的所有预测数据合并在一起,然后创建一个优化函数,试图找到最佳权重,以便针对折叠2的目标最小化误差或最大化AUC。例如,如果你有一个AUC非常高的随机森林模型和一个AUC稍低的逻辑回归模型,你可以把它们结合起来,随机森林模型占70%,逻辑回归模型占30%。提升模型的工作原理与装袋模型类似,不同之处在于提升模型中的连续模型是根据误差残差训练的,并倾向于最小化前面模型的误差。
2025-01-19 16:57:04
827
原创 特征选择简评
在前一种方法中,我们从一个特征开始,然后不断添加新的特征,但在RFE中,我们从所有特征开始,在每次迭代中不断去除一个对给定模型提供最小值的特征。而对于任何基于树的模型,我们得到的是特征重要性,而不是系数。在每次迭代中,我们都可以剔除最不重要的特征,直到达到所需的特征数量为止。当我们进行递归特征剔除时,在每次迭代中,我们都会剔除特征重要性较高的特征或系数接近0的特征。请记住,当你使用逻辑回归这样的模型进行二元分类时,如果特征对正分类很重要,其系数就会更正,而如果特征对负分类很重要,其系数就会更负。
2025-01-19 16:44:07
1088
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1