- 博客(23)
- 收藏
- 关注
原创 细说机器学习算法之 TF-IDF 及代码实现
TF-IDF(Term Frequency-Inverse Document Frequency)是一种统计方法,用于评估一个字词对于一个文本集或一个语料库中的其中一份文件的重要程度。它是文本挖掘和自然语言处理(NLP)中常用的加权技术。TF-IDF作为一种强大的文本分析工具,在文本挖掘、搜索引擎、推荐系统等领域发挥着重要作用。它就像是一个“关键词猎人”,帮助我们捕捉文本中的核心信息,提升文本处理的效率和准确性。
2025-02-17 18:01:33
937
原创 细说机器学习数学优化之最大似然估计
最大似然估计(Maximum Likelihood Estimation,MLE)是一种在统计学中用于估计模型参数的方法。这种方法基于这样一个原则:在给定的观测数据下,选择使得观测数据出现概率最大的参数值作为参数的估计值。需要注意的是,虽然最大似然估计在许多情况下都非常有效,但它也有一些局限性。例如,当模型假设不正确或数据存在异常值时,最大似然估计可能会受到较大影响。此外,对于某些复杂的模型或数据分布,最大似然估计的计算可能非常困难或耗时。在这些情况下,可能需要考虑其他估计方法,如贝叶斯估计等。
2025-02-15 21:13:33
1082
原创 细说机器学习数学优化之梯度下降
梯度下降(Gradient Descent)是人工智能(AI)领域中的一个关键概念,尤其在机器学习和深度学习中扮演着核心角色。梯度下降算法在应用中面临的主要挑战之一是局部最小值问题,尤其在面对高度非线性的成本函数时。为了应对这一挑战,研究者们采用了多种优化方法和技术,如随机梯度下降、动量技术及各种正则化方法等。此外,随着数据规模的扩大和计算能力的提升,分布式和并行化梯度下降算法也逐渐成为研究热点。综上所述,梯度下降是人工智能领域的一项基础而重要的算法。
2025-02-06 23:47:03
1552
1
原创 细说机器学习算法之ROC曲线用于模型评估
ROC曲线(Receiver Operating Characteristic curve)是一种用于评价分类模型性能的工具,尤其适用于二分类问题,在多分类问题上也有相对广泛的应用。通过在不同阈值下计算模型的真阳性率(True Positive Rate, TPR)和假阳性率(False Positive Rate, FPR)来全面评估分类器的表现,随着机器学习的发展,尤其是在医疗诊断、欺诈检测和金融风险控制等领域,ROC曲线成为衡量分类器性能的标准方法。
2025-01-31 23:29:44
1621
原创 细说机器学习算法之逻辑回归及代码实现
逻辑回归(Logistic Regression)是一种广义的线性回归分析模型,它虽然名字中包含“回归”,但实际上主要用于分类问题,特别是二分类问题。逻辑回归是一种实用的机器学习算法,特别适用于二分类问题。它通过Sigmoid函数将线性回归的输出转换为概率值,并预测事件发生的可能性。虽然逻辑回归有一些局限性,但在许多实际应用场景中,它仍然是一种简单、有效且易于理解的分类方法。
2025-01-30 23:28:22
1045
原创 细说机器学习算法之高维数据惩罚-lasso回归及代码实现
Lasso回归通过在损失函数中引入L1正则化项,鼓励模型将一些不重要的特征系数缩减为零,从而实现特征选择的效果。通过Lasso回归,可以从高维特征中筛选出关键特征,得到更加精简且有效的模型。这在领域如基因表达数据分析、金融数据建模等高维数据场景中非常有用。综上所述,Lasso回归作为一种先进的回归分析技术,在特征选择、处理共线性问题以及提高模型泛化能力等方面展现出显著优势。通过合理的模型选择和调优,Lasso回归能够在多个领域发挥重要作用,为数据分析和预测提供有力支持。
2025-01-29 23:17:03
1068
原创 细说机器学习算法之高维数据惩罚-岭回归及代码实现
岭回归(Ridge Regression),又称为L2正则化,是一种用于处理多重共线性(即多个自变量之间高度相关)问题的线性回归方法。在岭回归中,通过在最小化残差平方和的目标函数中加入一个正则化项来限制回归系数的大小,从而防止模型过拟合总的来说,岭回归是一种在处理多重共线性问题时非常有用的技术,它通过引入L2正则化项来提高线性回归模型的稳定性和泛化能力。
2025-01-28 23:10:31
2509
原创 细说Python操作之正则表达式
正则表达式(Regular Expression,简称 regex 或 regexp)是一种用于匹配字符串中字符组合的模式描述工具。它广泛用于文本搜索、数据验证、字符串替换等领域。正则表达式通过特定的语法规则,定义了搜索模式,可以高效地查找、替换或验证字符串是否符合特定的格式。例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
2025-01-24 22:19:11
903
原创 细说机器学习算法之过拟合与欠拟合
过拟合(Overfitting)与欠拟合(Underfitting)是机器学习和深度学习模型中常见的两个问题,它们分别对应模型过于复杂和模型过于简单的情况,会影响模型的泛化能力和预测效果。过拟合:模型在训练数据上表现得良好,但在新数据(测试集或验证集)上表现较差,即模型过度拟合了训练数据,学习了数据中的噪声和不相关的信息,而无法很好地泛化到新数据欠拟合:模型在训练数据和新数据上表现都较差,无法从数据中学到有效的规律综上所述,过拟合和欠拟合是机器学习中需要特别注意的两个问题。
2025-01-23 23:04:59
1259
原创 细说机器学习算法之GBDT及代码实现
GBDT自提出以来,已经被广泛应用于各种机器学习任务中,并且在许多实际问题中表现出色。近年来,GBDT也得到了许多优化和扩展,例如XGBoost、LightGBM和CatBoost等变种。GBDT是一种强大且灵活的机器学习算法,适用于各种复杂的预测任务。近年来,GBDT也得到了许多优化和扩展,例如XGBoost、LightGBM和CatBoost等变种。
2025-01-22 23:04:02
1195
原创 细说机器学习算法之XGBoost及代码实现
XGBoost是一个优化的分布式梯度增强库,它在Gradient Boosting框架下实现了机器学习算法,广泛应用于分类、回归等任务中。综上所述,XGBoost是一个功能强大、灵活性高的机器学习算法,它通过梯度提升的方法构建了一系列的决策树,每棵树都在尝试减少前一棵树的残差。XGBoost的正则化项和二阶泰勒展开是其核心技术,使得它在各种数据集上都能取得很好的性能。同时,它对缺失值的有效处理和并行化支持也使得它在处理大规模数据时更加高效。
2025-01-21 23:23:28
4091
原创 细说机器学习算法之朴素贝叶斯及代码实现
朴素贝叶斯(Naive Bayes)是一种基于贝叶斯定理的简单且高效的分类算法。尽管其“朴素”的假设(即特征之间相互独立)在实际应用中往往不成立,但朴素贝叶斯在许多领域,如文本分类、垃圾邮件过滤、情感分析等,仍然表现出惊人的效果。总的来说,朴素贝叶斯是一种简单而有效的分类算法,特别适用于高维数据且特征之间关系不复杂的情况。
2025-01-20 21:36:57
1438
原创 细说机器学习算法之决策树及代码实现
决策树是一种简单直观的机器学习算法,用于做分类或回归任务。它就像我们平常做决定时的过程,逐步排除可能的选项,最终得出结论。这是一种在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,从而评价项目风险并判断其可行性的决策分析方法。同时,在机器学习中,决策树也是一个重要的预测模型。综上所述,决策树的应用范围十分广泛,涉及商业、医疗、环境、制造、教育、科研以及机器学习与数据挖掘等多个领域。它能够帮助决策者清晰地看到各种决策路径及其可能的结果,从而做出更加合理的决策。
2025-01-19 18:08:57
1352
原创 细说机器学习算法之有监督学习和无监督学习
有监督学习和无监督学习是机器学习中的两种主要方法,它们在目标、数据使用、应用场景以及算法等方面存在显著的区别。综上所述,有监督学习和无监督学习各有其特点和优势,在实际应用中应根据具体的问题类型和数据特征进行选择。
2025-01-18 18:46:28
727
原创 细说机器学习算法之线性回归及代码实现
线性回归模型师一种基础且常用的统计方法,主要用来研究两个或多个之间的关系。使用自变量(特征)来预测目标变量(因变量)。尽管线性回归模型简单且易于理解,但其假设输入特征与目标变量之间存在线性关系,因此在实际应用中可能需要通过特征工程、非线性变换或选择其他更复杂的模型来捕捉更复杂的模式。
2025-01-17 18:42:57
1025
原创 细说机器学习算法之随机森林及代码实现
随机森林(Random Forest)是一种集成学习方法,它通过构建多个决策树并将它们的预测结果进行汇总,从而改进预测精度和鲁棒性。这种方法在分类和回归问题中都有广泛的应用。以下是随机森林的一些关键特点和原理:。综上所述,随机森林是一种强大的集成学习方法,它结合了多个决策树的预测结果以提高模型的准确性和鲁棒性。在实际应用中,需要根据具体任务和数据特点来选择合适的参数和配置。
2025-01-16 19:15:50
2761
原创 机器学习重中之重-特征工程概述
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。特征工程,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。特征工程是机器学习和数据分析中至关重要的一步,它涉及对原始数据进行转换、提取和选择,以便更好地表示数据并改善机器学习算法的性能。特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。
2025-01-15 22:07:55
1013
原创 深度学习基础书籍【资料获取】(包含pdf+代码)请点点赞和关注 谢谢!
人工智能只有学会深度学习也才算登堂入室,我整理了一些深度学习的资料免费分享给大家,希望对深度学习想入门和进阶的您能有所帮助,也希望在学习路上,我们相互扶持,共同进步,在人工智能领域深耕下去。(下面是分享链接,可以从网盘中领取哦)链接: https://pan.baidu.com/s/1Pu7dj3xgH5TlFSpdrqcPug?pwd=s964 提取码: s964 复制这段内容后打开百度网盘手机App,操作更方便哦。--来自百度网盘超级会员v3的分享。
2025-01-14 22:56:04
279
原创 数据分析项目实战代码之淘宝天猫销售数据分析
淘宝天猫销售数据分析小项目实战,内容相对简单,包括函数、matplotlib、pyecharts、jieba、wordcloud、re等基础应用。
2025-01-13 21:01:38
1047
原创 细说数据分析模型之帕累托分析以及代码实现
帕累托分析(Pareto Analysis)是一种基于帕累托原则(又称80/20法则)的数据分析方法,旨在通过识别和重点解决影响最大的关键问题,以实现资源优化和问题解决。这一法则被广泛应用于企业管理、质量管理等领域。综上所述,帕累托分析是一种简单而有效的数据分析方法,可以帮助企业和个人识别和解决最关键的问题,提高工作效率和成果。
2025-01-12 20:57:55
1056
原创 细说机器学习算法之K-Means及代码实现
K-Means,即K均值算法,是聚类算法中最流行的算法之一,属于无监督学习方法,核心任务是对给定的数据集进行数据点的有效分组,使同一群组内的数据点之间具有较高的相似性,而不同群组的数据点之间存在显著的差异。K-Means,即K均值算法,是聚类算法中最流行的算法之一,属于无监督学习方法,核心任务是对给定的数据集进行数据点的有效分组,使同一群组内的数据点之间具有较高的相似性,而不同群组的数据点之间存在显著的差异。综上所述,K-Means算法是一种简单高效的聚类算法,具有广泛的应用场景。
2025-01-11 23:05:07
1754
原创 细说机器学习算法之KNN及代码实现
KNN算法,全名称为K-Nearest Neighbor,译为K最邻近,是数据挖掘算法中最基本的一类,常用于分类和回归问题。以下是对KNN的详细介绍。综上所述,KNN算法是一种简单而有效的机器学习算法,在分类和回归问题中都有广泛的应用。然而,它也存在一些局限性,需要通过优化距离度量、合理选择K值、降维处理和使用索引结构等方法进行改进。
2025-01-10 18:10:19
1392
原创 细说数据分析模型之RFM模型以及代码实现
RFM模型是一种被广泛使用的营销模型,又称客户价值模型。以下是对RFM模型的详细定义RFM模型通过三个关键指标:R(Recency,最近购买时间)、F(Frequency,购买频率)、M(Monetary,购买金额)来对客户进行分群,从而衡量客户的价值和创收能力。该模型的核心思想是基于客户的购买历史数据,通过深入分析客户的购买行为,实现客户细分、精准营销和个性化服务,以提高客户满意度和企业利润。RFM模型是一种有效的客户价值分析模型,能够帮助企业实现客户细分和精准营销。
2025-01-09 00:56:30
1259
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人