没见过西瓜嘛-优快云博客

原创大模型学习(万字详解问答助手、RAG框架、本地部署千问模型)

大模型学习，详细解释大模型问答助手部署和相关知识，包含rag框架、模型本地部署

2025-01-15 10:17:57 3735

原创数据仓库、数据湖与湖仓一体技术笔记

海量存储瓶颈：关系数据库横向扩展性差，难应对TB级数据增长。多类型数据支持不足：仅能处理结构化数据，无法兼容半/非结构化数据。计算能力有限：TB级数据处理时性能急剧下降。定位：基于Hadoop的数据仓库工具，提供类SQL接口（HiveQL）。底层依赖存储：HDFS计算：MapReduce/Tez/Spark核心特点批处理导向：适合静态数据分析，非实时场景。ETL工具链：内置数据提取、转换、加载能力。

2025-08-01 16:53:39 1114

原创三机器学习之特征工程

机器学习特征工程是将原始数据转化为更能代表预测目标的特征，以提高机器学习模型性能的一系列技术和方法。

2025-03-04 17:40:56 1294

原创 DeepSeek从入门到精通学习总结

DeepSeek从入门到精通

2025-02-13 17:31:40 2508

原创二、机器学习模型评估与选择

(μ−ε0)服从自由度为k−1k - 1k−1的t分布。交叉验证t检验：用于比较两个学习器，对每对测试错误率求差进行t检验。McNemar检验：适用于二分类问题，判断两学习器性能是否相同。Friedman检验与Nemenyi后续检验：判断多个算法性能是否相同，若不同则用Nemenyi后续检验进一步区分。1.5 偏差与方差偏差 - 方差分解公式：E(f;D)=variance+bias2+noiseE(f;D) = variance + bias^{2} + noiseE(f;D)=var

2025-01-27 10:39:48 1012

原创图像分类和分割方法

计算机视觉中的图像分类和分割方法

2025-01-19 17:06:29 1033

原创组合和堆叠方法

之后，我们在折叠2上从头开始训练模型，并在折叠1上进行预测。现在，为了合并这些模型，我们将折叠1和折叠1的所有预测数据合并在一起，然后创建一个优化函数，试图找到最佳权重，以便针对折叠2的目标最小化误差或最大化AUC。例如，如果你有一个AUC非常高的随机森林模型和一个AUC稍低的逻辑回归模型，你可以把它们结合起来，随机森林模型占70%，逻辑回归模型占30%。提升模型的工作原理与装袋模型类似，不同之处在于提升模型中的连续模型是根据误差残差训练的，并倾向于最小化前面模型的误差。

2025-01-19 16:57:04 827

原创无监督和有监督学习

机器学习中的无监督学习和有监督学习

2025-01-19 16:54:08 1100

原创文本分类问题

自然语言处理（NLP）问题

2025-01-19 16:49:45 814

原创特征选择简评

在前一种方法中，我们从一个特征开始，然后不断添加新的特征，但在RFE中，我们从所有特征开始，在每次迭代中不断去除一个对给定模型提供最小值的特征。而对于任何基于树的模型，我们得到的是特征重要性，而不是系数。在每次迭代中，我们都可以剔除最不重要的特征，直到达到所需的特征数量为止。当我们进行递归特征剔除时，在每次迭代中，我们都会剔除特征重要性较高的特征或系数接近0的特征。请记住，当你使用逻辑回归这样的模型进行二元分类时，如果特征对正分类很重要，其系数就会更正，而如果特征对负分类很重要，其系数就会更负。

2025-01-19 16:44:07 1088