cherry
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
28、文本变量特征提取与清洗
本文介绍了文本变量的特征提取和清洗方法,重点包括TF-IDF值的提取和文本预处理步骤。详细说明了如何去除噪声、统一大小写、去除停用词、进行词干提取,并将文本转换为TF-IDF矩阵。同时提供了代码示例和流程图,帮助读者更好地理解和实现文本数据的处理。此外,还介绍了不同文本处理技术的应用场景以及优化建议,为文本特征提取和处理提供了全面的指导。原创 2025-09-09 00:09:03 · 40 阅读 · 0 评论 -
27、文本变量特征提取:方法与实践
本文详细介绍了自然语言处理(NLP)中从文本变量提取特征的方法,包括可视化文本特征分布、估计文本复杂度、使用词袋模型(BoW)和n-元语法(n-grams)以及实现词频-逆文档频率(TF-IDF)。文章还探讨了多特征融合和特征选择的实践方法,并提供了相关代码示例与注意事项。这些方法能够帮助将文本数据转化为适合机器学习算法处理的形式,适用于多种文本分析任务。原创 2025-09-08 11:52:33 · 47 阅读 · 0 评论 -
26、时间序列与文本变量的特征提取及应用
本文介绍了如何从时间序列和文本数据中提取特征,并将其应用于机器学习模型的训练和预测。对于时间序列数据,使用tsfresh库进行特征提取,并通过Lasso正则化进行特征选择,同时将特征创建嵌入到scikit-learn管道中以提高代码的可维护性和扩展性。对于文本数据,通过统计字符、单词、句子数量以及使用词袋模型、n-元语法、TF-IDF等方法提取特征,同时介绍了文本清理和词干提取技术。这些方法能够有效挖掘数据中的信息,为构建高性能的机器学习模型提供支持。原创 2025-09-07 11:46:49 · 53 阅读 · 0 评论 -
25、利用 tsfresh 从时间序列数据中自动创建和选择预测特征
本文介绍了如何利用 tsfresh 库从时间序列数据中自动创建和选择预测特征。tsfresh 能够高效地生成大量特征,并通过基于非参数统计假设检验的方法快速筛选出相关性较强的特征,从而减少冗余并提升模型性能。文章还探讨了 tsfresh 的使用流程、特征选择的工作原理及其局限性,并提供了为不同时间序列定制特征提取方法的实践步骤。最后,结合 Lasso 正则化方法进一步优化特征子集,提升模型的可解释性和效率。原创 2025-09-06 11:39:06 · 58 阅读 · 0 评论 -
24、使用tsfresh从时间序列创建特征
本文介绍了如何使用Python的tsfresh库从时间序列数据中自动提取数百个特征,并结合特征选择方法提升模型预测性能。内容涵盖技术要求、特征提取与处理、特征选择、不同时间序列特征定制、scikit-learn管道集成等关键步骤,适用于时间序列分析与预测任务。原创 2025-09-05 16:44:04 · 43 阅读 · 0 评论 -
23、利用Featuretools和tsfresh进行特征提取与聚合
本文介绍了如何使用Featuretools和tsfresh库进行特征提取与聚合,涵盖文本特征提取、关系数据特征聚合以及时间序列特征提取。文章详细演示了从数据加载、实体集构建到特征生成的完整流程,并提供了高级文本特征、聚合原语、转换原语的使用技巧。同时,深入探讨了时间序列特征的选择、工程技巧以及流程优化方案,为构建高效特征工程流程提供了实用指导。原创 2025-09-04 16:26:07 · 41 阅读 · 0 评论 -
22、使用 Featuretools 从关系型数据中提取特征
本文详细介绍了如何使用 Featuretools 从关系型数据中自动提取特征,涵盖通用和累积操作、数值特征的组合以及从日期和时间中提取特征等内容。通过这些方法,可以显著增强数据集,提高机器学习模型的性能。原创 2025-09-03 13:18:51 · 69 阅读 · 0 评论 -
21、数据特征提取与处理:样条特征与关系型数据特征提取
本文介绍了两种重要的数据特征提取方法:基于样条的特征创建和关系型数据的特征提取。通过scikit-learn的SplineTransformer,可以创建适合数据的样条特征,提升线性模型的性能;而使用featuretools库,可以从关系型数据中自动创建丰富的特征,为数据分析和建模提供更多有价值的信息。文章还涵盖了特征提取的实际应用场景、注意事项以及优化建议。原创 2025-09-02 12:08:31 · 47 阅读 · 0 评论 -
20、特征工程:创建新特征的实用方法
本文介绍了特征工程中创建新特征的三种实用方法:基于决策树创建新特征、从周期性变量创建特征以及创建样条特征。通过具体的操作步骤和代码示例,展示了如何提升线性模型的性能。此外,还对不同方法的适用场景进行了对比分析,并提供了注意事项和技巧,帮助读者更好地应用这些方法解决实际问题。原创 2025-09-01 10:06:35 · 54 阅读 · 0 评论 -
19、特征工程:创建新特征的方法与实践
本文详细介绍了在机器学习中创建新特征的三种主要方法:使用`feature-engine`库进行特征组合、利用`scikit-learn`进行多项式扩展以及使用决策树组合特征。通过理论讲解、代码示例和实际案例分析,帮助读者理解不同方法的适用场景和优势,并提供方法选择建议和未来研究方向。文章还展示了综合使用这些方法的潜在价值,旨在提升机器学习模型的性能。原创 2025-08-31 12:50:04 · 59 阅读 · 0 评论 -
18、特征缩放与新特征创建:提升机器学习模型性能的关键技巧
本文详细介绍了在机器学习中提升模型性能的关键技巧——特征缩放与新特征创建。内容涵盖最大绝对缩放和向量单位长度缩放的实现方法,以及通过数学函数、比较特征与参考变量等方式创建新特征的多种策略。此外,还讨论了多项式展开、决策树结合、周期性特征和样条特征的创建方法。这些技术有助于模型更好地学习数据模式,提高预测性能和可解释性。原创 2025-08-30 15:49:53 · 30 阅读 · 0 评论 -
17、特征缩放方法详解
本文详细介绍了数据预处理中的关键步骤——特征缩放,涵盖了标准化、最大最小缩放、中位数和分位数缩放、均值归一化以及最大绝对值缩放等多种方法。通过具体代码示例展示了每种方法的实现步骤,并分析了它们的适用场景、优缺点以及注意事项。文章还提供了选择特征缩放方法的流程图和优化代码实现的建议,帮助读者根据数据特点和模型需求选择合适的缩放方法,以提升模型的性能和稳定性。原创 2025-08-29 09:23:12 · 60 阅读 · 0 评论 -
16、日期时间特征提取与特征缩放技术详解
本文详细介绍了如何从日期时间变量中提取有用特征以及进行特征缩放的方法。涵盖了计算两个日期时间之间的经过时间、处理不同时区的时间数据、利用feature-engine库自动化提取日期时间特征,并介绍了标准化等特征缩放技术。通过具体的代码示例和操作步骤,帮助读者更好地理解如何在实际数据分析和机器学习项目中应用这些技术。原创 2025-08-28 15:02:20 · 37 阅读 · 0 评论 -
15、异常值处理与日期时间特征提取
本文详细介绍了数据预处理中的异常值处理和日期时间特征提取方法。异常值处理部分介绍了常用的缩尾处理(Winsorization)及其操作步骤;日期时间特征提取部分涵盖了从日期、时间中提取常见和高级特征的方法,包括年份、季度、月份、星期几、是否为周末、是否为月初/月末、是否为闰年等,并介绍了如何计算两个日期之间的经过时间、处理不同时区的时间数据,以及使用feature-engine库进行自动化特征提取。文章还提供了完整的代码示例和流程图,帮助读者系统掌握这些数据处理技巧,为数据分析和机器学习建模打下坚实基础。原创 2025-08-27 11:39:54 · 89 阅读 · 0 评论 -
14、数据异常值处理全攻略
本文详细介绍了在数据分析中识别和处理异常值的多种方法,包括中位数绝对偏差(MAD)、IQR规则以及Winsorization技术。内容涵盖异常值的识别、移除以及如何将异常值带回可接受范围,并通过代码示例展示了具体实现步骤。同时,文章还对不同方法的适用场景和特点进行了比较,帮助读者更好地理解和应用这些技术。原创 2025-08-26 14:32:01 · 59 阅读 · 0 评论 -
13、数据离散化与异常值处理:方法与实践
本博客详细探讨了数据离散化与异常值处理的方法与实践。首先介绍了决策树离散化的原理与实现,随后全面分析了异常值的定义、影响以及多种检测方法,包括箱线图与四分位间距规则、均值和标准差法、中位数绝对偏差(MAD)等。博客还提供了多种异常值处理策略,如直接移除异常值、将其带回可接受范围以及应用Winsorization方法。通过实际案例操作与可视化图表,帮助读者更好地理解和应用这些方法,从而提高数据质量与机器学习模型的性能。原创 2025-08-25 11:01:18 · 44 阅读 · 0 评论 -
12、变量离散化与特征处理方法
本文介绍了三种常见的变量离散化与特征处理方法:使用k-means聚类进行离散化、实现特征二值化以及使用决策树进行离散化。详细阐述了每种方法的原理、操作步骤及流程,并通过实际应用案例展示了它们在客户细分、文本分类和房价预测中的应用。同时,对三种方法的适用场景及优缺点进行了比较,帮助读者根据具体问题选择合适的方法,从而提高机器学习模型的性能。原创 2025-08-24 12:28:52 · 45 阅读 · 0 评论 -
11、变量离散化实现指南
本文详细介绍了变量离散化的三种常见方法:等宽离散化、等频离散化和自定义区间离散化,并结合Python中的pandas、feature-engine和scikit-learn工具提供了具体的代码实现。文章还分析了不同方法的技术细节、适用场景及实际应用中的注意事项,并通过对比表格和流程图帮助读者更好地理解和选择合适的离散化方案。适用于数据预处理和机器学习任务中的变量处理需求。原创 2025-08-23 13:50:24 · 31 阅读 · 0 评论 -
10、数值变量转换与离散化
本文详细介绍了数据处理和机器学习中的数值变量转换与离散化技术。涵盖了Box-Cox变换和Yeo-Johnson变换的原理与实现方法,以及多种离散化策略,包括等宽离散化、等频离散化、任意离散化、k-均值聚类离散化和决策树离散化。通过代码示例展示了不同库(如scikit-learn和Feature-engine)的实现方式,并对各种离散化方法进行了比较,总结了其优缺点和适用场景。此外,还强调了离散化过程中需要注意的问题,如数据泄露、区间数量选择和异常值处理等。原创 2025-08-22 16:19:49 · 49 阅读 · 0 评论 -
9、变量转换:倒数、平方根、幂和Box - Cox变换
本文介绍了数据处理和分析中常用的变量转换方法,包括倒数变换、平方根变换、幂变换和Box-Cox变换。详细讲解了每种变换的适用场景、数学公式以及使用NumPy、scikit-learn和Feature-engine等Python库实现的具体步骤。通过代码示例和可视化诊断图展示变换效果,同时对比不同方法的优缺点,帮助读者选择合适的变换方法并集成到机器学习管道中,提高数据分析效率。原创 2025-08-21 16:27:14 · 60 阅读 · 0 评论 -
8、数据处理:类别分组、编码与数值变量转换
本文介绍了数据预处理中的关键步骤,包括对分类变量的稀有类别进行分组和编码,以及对数值变量进行多种变换方法的处理。详细讲解了使用 feature-engine 和 category_encoders 等工具实现稀有类别合并、二进制编码的方法,并探讨了对数变换、倒数变换、平方根变换、幂变换、Box-Cox 变换和 Yeo-Johnson 变换的原理及实现方式。通过诊断绘图函数评估变换对数据分布的影响,帮助提升机器学习模型的性能。原创 2025-08-20 15:30:01 · 39 阅读 · 0 评论 -
7、分类变量编码:目标均值编码、证据权重编码与稀有类别分组
本文详细介绍了分类变量编码中的三种常用方法:目标均值编码、证据权重编码和稀有类别分组。目标均值编码通过将类别映射为目标变量的概率估计,适用于高基数分类变量;证据权重编码基于基本赔率比计算,广泛应用于信贷和金融领域;稀有类别分组则用于处理低频类别,以提高模型的稳定性。文章还提供了每种方法的数学原理和Python实现代码,并讨论了它们的优势、挑战和适用场景。最后,总结了不同编码方法的选择策略以及组合使用的可能性,帮助读者更好地处理分类变量,提升机器学习模型的性能。原创 2025-08-19 12:56:22 · 43 阅读 · 0 评论 -
6、分类变量编码方法详解
本文详细介绍了机器学习中常见的分类变量编码方法,包括编码高频类别、使用计数或频率替换类别、用序数替换类别以及基于目标值进行序数编码。文章提供了多种编码方法的具体实现代码,对比了不同方法的适用场景和优缺点,并结合信用审批数据集展示了完整的编码与建模流程。适合数据分析师和机器学习开发者参考,以提升模型性能。原创 2025-08-18 14:39:44 · 89 阅读 · 0 评论 -
5、类别变量编码:方法与实践
本文详细介绍了类别变量编码的多种方法及其在Python中的实现,包括独热编码、计数或频率编码、序数编码、目标均值编码、证据权重编码等。通过具体代码示例,讲解了如何将类别变量转换为适合机器学习模型的数值形式,并讨论了不同编码方法的适用场景和优缺点,为特征工程提供了实用指导。原创 2025-08-17 09:46:31 · 52 阅读 · 0 评论 -
4、时间序列与多元数据缺失值处理方法详解
本文详细介绍了时间序列和多元数据中缺失值的常见处理方法,包括前向填充、后向填充、插值法、多元链式方程插补法(MICE)和K近邻插补法(KNN)。文章涵盖了每种方法的原理、操作步骤、适用场景及优缺点,并通过代码示例展示了具体实现过程。此外,还提供了方法对比表格、处理流程图及实际应用中的注意事项,帮助读者更好地选择和应用合适的缺失值处理技术,提高数据分析和建模的准确性。原创 2025-08-16 15:44:20 · 95 阅读 · 0 评论 -
3、缺失数据插补方法全解析
本文详细解析了处理缺失数据的常见插补方法,包括分类变量插补、用任意数字替换缺失值、寻找极端值进行插补以及标记插补值。文章提供了每种方法的原理、适用场景、优缺点,并结合具体代码示例展示如何在Python中实现这些方法。此外,还通过对比表格和决策流程图帮助读者根据数据特征选择合适的插补策略。最后,结合实际案例演示了如何将这些方法应用到信用评估数据的建模前处理中,旨在提升数据分析和建模的准确性和可靠性。原创 2025-08-15 12:03:49 · 127 阅读 · 0 评论 -
2、缺失数据插补方法详解
本文详细介绍了处理缺失数据的各种插补方法,包括完全案例分析、均值和中位数插补、分类变量插补、任意数字替换、极值插补、标记插补值、前向和后向填充、插值、多元插补(MICE)以及最近邻(KNN)插补。文中通过 Python 的 pandas、scikit-learn 和 Feature-engine 等工具展示了具体的操作步骤和实现方法,帮助读者根据数据特性和需求选择合适的插补策略,以提高数据质量和机器学习模型性能。原创 2025-08-14 14:19:10 · 117 阅读 · 0 评论 -
1、机器学习特征工程实用指南
本文详细介绍了机器学习中特征工程的核心技术与实践方法,涵盖缺失值处理、分类变量编码、数值变量转换、变量离散化、异常值处理、日期和时间特征提取、特征缩放、新特征创建、关系数据特征提取、时间序列特征提取以及文本变量特征提取等内容。通过代码示例和详细步骤,帮助读者掌握特征工程的关键技术,从而提升模型性能与数据质量。适合机器学习初学者与从业者参考学习。原创 2025-08-13 13:11:17 · 82 阅读 · 0 评论
分享