机器学习_V文宝的博客-优快云博客

机器学习

关注

文章平均质量分 84

关注数：文章数：18 文章阅读量：23807 文章收藏量：281

作者: V文宝

冲冲冲！

展开

专栏收录文章

大数据技术全景解析：Spark、Hadoop、Hive与SQL的协作与实战

• MapReduce（计算框架）：笨拙但可靠的搬运工，通过“分箱-搬运-汇总”完成批量任务（如统计年度销售额）。• HDFS（分布式存储）：像一个无限扩展的仓库，能容纳PB级数据（如10年电商订单原始日志）。• 服务层：Presto/Trino（交互式查询）+ MySQL（结果集服务）。• 存储层：HDFS（低成本PB级存储）+ 对象存储（如AWS S3）。• 冷数据存储：存储历史日志、备份数据（如法律要求的10年交易记录）。• 数据仓库：将杂乱数据整理成带标签的表格（如“用户表”“订单表”）。

原创 2025-05-07 10:33:24 · 3589 阅读 · 0 评论
python基础之正则表达式

Python中的正则表达式（regular expressions，简称regex）是强大的字符串处理工具，用于搜索、匹配和替换字符串中的特定模式。Python通过re模块提供对正则表达式的支持。以下是对Python正则表达式的详细讲解。

原创 2024-06-30 22:49:11 · 565 阅读 · 0 评论
机器学习_模型评估与选择

经验误差是模型在训练数据上的错误率，也称为训练误差（Training Error）。它是通过将模型应用于训练数据集来计算的，衡量的是模型在已知数据上的表现。过拟合是指模型在训练数据上表现很好，但在未见过的测试数据或验证数据上表现较差的现象。这意味着模型捕捉到了训练数据中的噪声和细节，而不是数据的整体模式，从而导致泛化能力较差。模型评估与选择是机器学习中的重要环节。通过交叉验证和多种评估指标，可以全面评估模型的性能。通过网格搜索、随机搜索和集成学习，可以选择最佳模型。

原创 2024-06-06 06:00:00 · 989 阅读 · 0 评论
KNN算法实例_手写识别系统

创建一个简单的书写识别系统，使用KNN算法来识别手写数字，分别使用手写KNN算法和调用库来实现。在数据处理过程中，我们将使用一个常见的手写数字数据集，如MNIST数据集。

原创 2024-06-03 06:00:00 · 523 阅读 · 0 评论
KNN算法实例_约会网站配对

下面我们将实现一个KNN算法的实例，目的是改进网站约会的配对效果。我们会分别手写KNN算法和调用库来实现。在数据处理的过程中，我们将对数据进行归一化处理。

原创 2024-06-01 06:00:00 · 482 阅读 · 0 评论
KNN算法实例_电影类型判断

下面是一个完整的K近邻算法（K-Nearest Neighbors, KNN）实例，用于判断电影类型。我们假设有一组电影数据集，每部电影都有两个特征：动作场面数量和爱情场景数量。根据这些特征，我们可以通过KNN算法来判断一部新电影的类型是动作片还是爱情片。

原创 2024-05-31 06:00:00 · 673 阅读 · 0 评论
机器学习_集成学习

集成学习通过组合多个模型的预测结果来提高整体性能。Bagging、Boosting、Stacking、随机森林和梯度提升是常见的集成方法。每种方法都有其优缺点和适用场景。在实际应用中，根据数据特点和需求选择合适的集成学习方法，能够显著提升模型的性能和鲁棒性。

原创 2024-06-05 06:00:00 · 884 阅读 · 0 评论
机器学习_降维

不同的降维算法有各自的特点和适用场景。在实际应用中，选择合适的降维算法需要根据数据的特点和具体需求进行权衡，并且可以通过实验和调参来优化降维效果。

原创 2024-06-04 06:00:00 · 1489 阅读 · 0 评论
机器学习_聚类算法详解

聚类算法是无监督学习的一种，主要用于将数据集中的样本划分为若干个簇，使得同一簇内的样本具有较高的相似度，而不同簇之间的样本差异较大。

原创 2024-06-03 06:00:00 · 1196 阅读 · 0 评论
机器学习_分类算法详解

机器学习中的分类算法是用于将输入数据分配到预定义类别中的算法。分类任务是监督学习的一种，模型根据训练数据中的输入-输出对进行学习，然后预测新的输入数据的类别。我们将详细讲解其中的几种，并提供相应的代码实例。

原创 2024-06-02 06:00:00 · 3392 阅读 · 0 评论
机器学习_回归算法详解

线性回归是最简单、最常用的回归算法之一，假设目标变量 ( y ) 与输入特征 ( X ) 之间存在线性关系。ywTXbywTXb其中，( \mathbf{w} ) 是权重向量，( b ) 是偏置项。多项式回归扩展了线性回归，通过引入多项式特征来拟合非线性关系。yw0w1xw2x2wdxdyw0w1xw2x2wdxd岭回归是线性回归的扩展，加入了L2正则化项来防止过拟合。

原创 2024-06-01 06:00:00 · 2427 阅读 · 0 评论
机器学习_决策树与随机森林

决策树和随机森林是常用的机器学习算法，尤其在分类和回归任务中应用广泛。以下详细介绍它们的用法，并提供相应的代码实例。

原创 2024-05-30 09:13:17 · 648 阅读 · 0 评论
机器学习_参数调优

超参数是在训练之前设置的参数，不同于模型训练过程中学到的参数（如权重）。决策树和随机森林的超参数包括树的深度、分裂标准、树的数量等。

原创 2024-05-30 09:11:59 · 1285 阅读 · 0 评论
机器学习_交叉验证

交叉验证（Cross-Validation）是一种模型验证技术，通过重复地划分数据集来评估模型的性能，主要目的是提高模型的泛化能力，防止过拟合和欠拟合。以下详细介绍交叉验证的概念、类型及其应用。

原创 2024-05-30 09:09:50 · 843 阅读 · 0 评论
机器学习_正则化方法

防止过拟合：正则化通过约束模型参数，防止模型过于复杂，从而提高泛化能力。特征选择：L1正则化和Elastic Net可以自动选择重要特征，简化模型。提高稳定性：L2正则化和Elastic Net在多重共线性存在时，提高模型的稳定性。正则化方法是提高机器学习模型性能的关键技术之一。选择合适的正则化方法取决于数据集的特性和任务需求。L1正则化适用于需要特征选择的高维数据，L2正则化适用于多重共线性问题，Elastic Net结合了两者的优点，适用于需要同时实现特征选择和模型稳定性的场景。

原创 2024-05-29 17:02:52 · 1242 阅读 · 0 评论
特征工程_特征选择

特征选择是机器学习中必不可少的一步，它可以帮助减少数据的维度，提升模型的性能和训练速度。通过理解和应用过滤法、包装法和嵌入法，可以在各种应用场景中有效地进行特征选择，从而构建更高效、更准确的机器学习模型。

原创 2024-05-31 09:00:00 · 1017 阅读 · 0 评论
机器学习_特征工程

特征工程是机器学习中的关键步骤，通过特征提取、特征转换和特征选择，可以显著提升模型的性能。了解不同的方法和工具，并在实际项目中应用这些技术，能够帮助你构建更强大和准确的模型。

原创 2024-05-30 09:00:00 · 1664 阅读 · 0 评论
One-hot编码

One-hot编码是一种有效处理类别型数据的方法，广泛应用于各种机器学习和数据处理任务中。通过将类别型数据转换为二进制向量，One-hot编码使得机器学习算法能够处理这些数据。然而，对于高基数特征，需要考虑其他技术（如嵌入向量）来应对维度灾难问题。

原创 2024-05-29 16:05:29 · 902 阅读 · 0 评论

机器学习

作者: V文宝

大数据技术全景解析：Spark、Hadoop、Hive与SQL的协作与实战

python基础之正则表达式

机器学习_模型评估与选择

KNN算法实例_手写识别系统

KNN算法实例_约会网站配对

KNN算法实例_电影类型判断

机器学习_集成学习

机器学习_降维

机器学习_聚类算法详解

机器学习_分类算法详解

机器学习_回归算法详解

机器学习_决策树与随机森林

机器学习_参数调优

机器学习_交叉验证

机器学习_正则化方法

特征工程_特征选择

机器学习_特征工程

One-hot编码