e1f2g
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
21、文本挖掘:从N - 元语法到主题建模与文本分类
本文深入探讨了从N-元语法到主题建模与文本分类的文本挖掘全流程。通过总统演讲文本,展示了文本预处理、二元语法分析、主题模型构建(LDA)、政党归属分类(LASSO)及多种定量分析方法(如极性、可读性、正式性)。结合R语言实现与可视化,揭示不同时期文本特征演变,并总结实际应用场景与未来研究方向,为文本数据的定量化分析提供系统性实践指南。原创 2025-10-03 08:10:57 · 35 阅读 · 0 评论 -
20、文本挖掘:从理论到实战
本文系统介绍了文本挖掘从理论到实战的完整流程,涵盖基础结构、主题建模、情感分析、词频统计及多种定量分析方法。通过R语言对美国国情咨文数据进行实例分析,展示了词频可视化、LDA主题建模、政党分类、情感趋势探测以及总统演讲风格比较等技术应用,帮助读者深入理解文本数据背后的语义信息与历史背景。原创 2025-10-02 16:24:37 · 32 阅读 · 0 评论 -
19、时间序列、因果关系与文本挖掘:数据洞察之旅
本文探讨了时间序列分析中的地表温度异常预测与CO₂排放的Granger因果关系,揭示了传统线性回归在非平稳时间序列中的局限性,并通过向量自回归(VAR)模型验证了CO₂变化可能引导温度异常。随后,文章系统介绍了文本挖掘的完整流程,涵盖数据预处理、词频分析、情感分析、N-元语法、主题模型及文本分类等方法,结合R语言实现示例,展示了从非结构化文本中提取有价值信息的技术路径,为数据分析与洞察提供实用指南。原创 2025-10-01 14:15:53 · 41 阅读 · 0 评论 -
18、时间序列与因果关系分析:以气候变化为例
本文以气候变化为例,系统探讨了时间序列分析与因果关系建模的方法。通过收集1919年至2013年的全球二氧化碳排放与地表温度异常数据,文章依次进行了数据探索、平稳性检验、单变量预测(ETS与ARIMA)、模型集成及结构变化检测,并引入VAR模型进行滞后阶数选择与格兰杰因果检验。分析旨在从统计角度判断CO2是否‘格兰杰引起’气温变化,同时强调相关性不等于因果性。研究还展示了如何通过breakpoints检测关键转折点(如1963年)以优化模型性能,为环境政策制定和气候预测提供了数据驱动的建模框架。原创 2025-09-30 09:40:59 · 55 阅读 · 0 评论 -
17、关联分析与时间序列分析:使用R语言进行数据挖掘
本文介绍了使用R语言进行关联分析和时间序列分析的基本方法。在关联分析部分,通过创建事务性数据、挖掘购物篮中的物品关联规则,并利用arules和arulesViz包实现规则提取与可视化,帮助理解客户购买行为。在时间序列分析部分,重点讲解了指数平滑和ARIMA模型的原理与应用,包括平稳性检验、ACF/PACF分析、差分处理及预测生成。文章结合代码示例与流程图,展示了从数据准备到建模评估的完整过程,适用于零售、医疗、金融等领域的数据分析实践。原创 2025-09-29 12:37:05 · 29 阅读 · 0 评论 -
16、主成分分析与关联分析:数据挖掘的实用技巧
本文深入探讨了数据挖掘中的两种重要技术:主成分分析(PCA)和关联分析。PCA用于高维数值数据的降维与特征提取,适用于如士兵体重预测等场景;关联分析则通过Apriori算法挖掘交易数据中的潜在关联规则,广泛应用于零售、医疗和欺诈检测等领域。文章详细介绍了两种方法的操作步骤、应用案例及对比,并展示了流程图以帮助理解整体分析流程,为实际业务决策提供技术支持。原创 2025-09-28 13:41:06 · 30 阅读 · 0 评论 -
15、聚类分析与主成分分析:数据挖掘的利器
本文深入探讨了数据挖掘中的两种重要无监督学习技术:聚类分析与主成分分析。详细介绍了K-means、PAM结合Gower距离和随机森林等多种聚类方法的操作步骤与应用场景,并系统讲解了主成分分析的原理、操作流程及其在降维和特征提取中的应用。通过ANSUR数据集示例展示了PCA与MARS模型结合进行预测的完整过程,帮助读者更好地理解数据结构并提升建模效率。原创 2025-09-27 13:00:43 · 35 阅读 · 0 评论 -
14、聚类分析:方法与实战
本文深入探讨了多种常见的聚类算法,包括K-means、Gower和PAM、随机森林聚类以及层次聚类,并通过意大利葡萄酒数据集进行实战演示。文章详细介绍了每种算法的原理与实现步骤,涵盖了数据预处理、聚类建模、结果可视化、性能评估及实际应用场景。同时,利用NbClust、轮廓系数和PCA等方法对聚类结果进行比较与分析,帮助读者掌握如何选择合适的聚类方法并优化参数。最后总结了聚类分析的一般流程与未来发展方向。原创 2025-09-26 09:05:21 · 31 阅读 · 0 评论 -
13、机器学习中的集成方法与聚类分析
本文深入探讨了机器学习中的集成方法与聚类分析技术。通过DNA数据集实例,展示了随机森林与MARS模型的堆叠集成如何提升分类性能,并详细介绍了层次聚类、k-means聚类、PAM聚类及基于随机森林特征转换的无监督学习方法。文章还涵盖了数据预处理、距离计算、标准化以及聚类评估指标等内容,系统地呈现了从监督到无监督学习的完整流程与应用实践。原创 2025-09-25 13:09:38 · 31 阅读 · 0 评论 -
12、神经网络与深度学习实战:从简单模型到深度回归
本文详细介绍了神经网络与深度学习的实战应用,涵盖从简单神经网络构建到使用Keras和TensorFlow进行深度回归分析的完整流程。通过航天飞机自动着陆系统预测和Ames房价预测两个案例,展示了数据预处理、模型构建、训练与评估的关键步骤。同时探讨了集成学习原理及其在多分类问题中的应用,包括堆叠方法和常用评估指标。文章旨在帮助读者掌握主流深度学习技术并应用于实际问题中。原创 2025-09-24 10:57:05 · 25 阅读 · 0 评论 -
11、机器学习中的树基分类与神经网络及深度学习
本文深入探讨了机器学习中的树基分类方法、神经网络与深度学习的核心概念与应用。介绍了随机森林和梯度提升树如何提升决策树的预测能力,并详细解析了人工神经网络的基本结构、训练过程及常见激活函数。进一步阐述了深度学习的原理、优势与调优策略,涵盖了CNN、RNN、LSTM等主流网络类型及其适用场景。同时提供了使用Keras实现深度学习模型的实践示例,并总结了学习路径与发展建议,帮助读者系统掌握从理论到应用的全过程。原创 2025-09-23 10:21:51 · 24 阅读 · 0 评论 -
10、基于树的分类算法:随机森林、XGBoost与特征选择
本文深入探讨了基于树的分类算法,包括随机森林和XGBoost在客户满意度数据上的应用。文章详细介绍了数据预处理、模型训练、特征重要性分析与特征选择方法(如Boruta),并对比了不同模型在AUC和Log-Loss指标上的表现。同时讨论了实际应用中需考虑的计算资源、数据特点与业务需求,并提出了参数调优、特征工程和模型融合等优化建议。最后展望了基于树模型的发展趋势,包括算法改进、与其他技术结合以及自动化机器学习的方向。原创 2025-09-22 09:30:33 · 29 阅读 · 0 评论 -
9、机器学习分类算法:KNN、SVM与树基分类器详解
本文详细介绍了三种主流的机器学习分类算法:KNN、SVM和树基分类器(包括决策树、随机森林与梯度提升树)。内容涵盖算法原理、特征选择方法(如RFE与随机森林重要性)、模型训练与调优(含超参数设置与交叉验证)、性能评估指标(如准确率、AUC、Kappa)以及不同算法的对比分析。通过R语言代码示例展示了从数据预处理到模型预测的完整流程,并提供了算法选择建议与流程图,帮助读者根据数据特点选择合适的分类模型并优化其性能。原创 2025-09-21 09:06:08 · 31 阅读 · 0 评论 -
8、K近邻与支持向量机:原理、实践与评估
本文深入探讨了K近邻(KNN)和支持向量机(SVM)两种经典分类算法的原理、实现与评估方法。内容涵盖算法工作原理、k值选择、核技巧、距离计算、数据预处理、递归特征消除、模型训练与性能评估,并通过R语言代码实例展示了完整的建模流程。文章还对两种算法在实际数据集上的表现进行了对比分析,提供了AUC、准确率、Kappa值等多维度评估结果,帮助读者理解其适用场景与优缺点,为机器学习实践提供有力参考。原创 2025-09-20 09:23:41 · 29 阅读 · 0 评论 -
7、线性模型中的高级特征选择与非线性分类技术
本文深入探讨了线性模型中的高级特征选择方法,包括岭回归、LASSO和弹性网络,并比较了它们在模拟数据集上的性能。同时介绍了两种非线性分类技术:K近邻(KNN)和支持向量机(SVM),涵盖了数据预处理、模型训练、参数调优及性能评估的完整流程。通过AUC、准确率等指标对比不同模型的表现,帮助读者根据数据特点选择合适的分类算法。文章结合R语言实现,适合希望提升分类建模能力的数据科学从业者参考。原创 2025-09-19 15:24:53 · 27 阅读 · 0 评论 -
6、线性模型中的特征选择与模型比较
本文深入探讨了线性模型中的特征选择与模型比较,重点介绍了逻辑回归和多元自适应回归样条(MARS)在分类问题中的应用。通过5折交叉验证和多种评估指标(如准确率、Kappa、AUC、log-loss等)对模型性能进行分析,并引入正则化方法(岭回归、LASSO、弹性网络)解决高维数据与多重共线性问题。文章还系统比较了不同正则化技术在特征选择与模型解释性方面的优劣,提供了从数据准备到模型优化的完整流程建议,帮助读者构建高效且可解释的机器学习模型。原创 2025-09-18 12:31:25 · 31 阅读 · 0 评论 -
5、线性回归与逻辑回归:预测方法解析
本文深入解析了线性回归与逻辑回归在机器学习中的应用。线性回归用于定量结果预测,介绍了Duan's Smearing Estimator校正对数转换偏差的方法;逻辑回归适用于定性结果预测,重点讲解了如何利用WOE和IV进行特征选择,并通过实例展示了模型构建与评估流程。文章结合R代码实现,帮助读者理解两种回归方法的核心原理与实际操作步骤。原创 2025-09-17 09:24:45 · 32 阅读 · 0 评论 -
4、线性回归建模与评估:从数据处理到模型应用
本文详细介绍了从数据加载到模型应用的线性回归建模全流程,涵盖数据预处理、特征工程、逐步回归与MARS模型构建及评估。通过对比两种模型性能,探讨了残差重尾分布的解决方案与反变换方法,并提出了进一步优化模型的方向,如分位数回归、模型集成和参数调优,为实际回归问题提供了系统性实践指南。原创 2025-09-16 11:47:39 · 32 阅读 · 0 评论 -
3、数据准备、理解与线性回归实战
本文详细介绍了机器学习项目中数据准备与处理的关键步骤,涵盖缺失值处理、高相关性特征识别与去除、线性组合检测等方法,并结合R语言实例展示了如何清洗数据。随后深入讲解线性回归的基础理论与实践应用,包括单变量和多变量线性回归模型的构建、假设检验、可视化诊断及模型评估流程,帮助读者掌握从数据预处理到建模分析的完整技术链条。原创 2025-09-15 11:13:46 · 25 阅读 · 0 评论 -
2、数据准备与理解:从葛底斯堡战役数据谈起
本文以美国内战期间葛底斯堡战役数据为例,系统介绍了R语言中的数据准备与理解全过程。内容涵盖数据获取与加载、重复观测值处理、描述性统计分析、分类变量探索、缺失值处理、零方差特征识别与剔除,以及使用vtreat包进行数据预处理等关键步骤。通过实际代码演示和流程图展示,帮助读者掌握高效的数据清洗与预处理方法,为后续数据分析与建模奠定坚实基础。原创 2025-09-14 16:38:35 · 45 阅读 · 0 评论 -
1、数据准备与理解:开启机器学习之旅
本文深入探讨了机器学习中数据准备与理解的关键步骤,涵盖了常见数据问题、数据处理任务及实际操作建议。重点介绍了数据读取、描述性统计、分类变量探索和缺失值处理等核心内容,并结合Python的pandas库提供了具体代码示例,帮助读者为后续建模打下坚实的数据基础。原创 2025-09-13 12:22:03 · 18 阅读 · 0 评论
分享