
数据挖掘
文章平均质量分 89
SeafyLiang
即使再小的帆,也能远航️
展开
-
pyspark_自定义udf_解析json列【附代码】
利用Pyspark + udf自定义函数实现大数据并行计算原创 2023-08-02 13:51:16 · 691 阅读 · 0 评论 -
锂离子电池热失控预警资料整理(三)
此前 个人搜集了一些锂电池热失控预警相关期刊、文献,并整理了一些个人认为重要的逻辑、知识点,希望通过此分享让有需要的人了解一些内容,如有问题欢迎同我探讨~原创 2023-01-16 11:27:18 · 2997 阅读 · 0 评论 -
特征工程资料整理,如何从数据中挖掘特征
数据的表达就是原始数据经过clean and transformer得到features的过程,即为特征工程。原创 2022-12-29 16:55:02 · 895 阅读 · 0 评论 -
锂离子电池热失控预警资料整理(二)
此前 个人搜集了一些锂电池热失控预警相关期刊、文献,并整理了一些个人认为重要的逻辑、知识点,希望通过此分享让有需要的人了解一些内容,如有问题欢迎同我探讨~原创 2022-11-11 15:12:10 · 3355 阅读 · 1 评论 -
锂离子电池热失控预警资料整理(一)
此前 个人搜集了一些锂电池热失控预警相关期刊、文献,并整理了一些个人认为重要的逻辑、知识点,希望通过此分享让有需要的人了解一些内容,如有问题欢迎同我探讨~原创 2022-10-31 14:49:21 · 4535 阅读 · 0 评论 -
vLoong能源AI挑战赛——异常检测赛Top2方案开源
新能源车辆电池的故障检测对于及时发现车辆问题、排除隐患、保护人的生命财产安全有着重要意义。新能源电池的故障是多种多样的,包括热失控、析锂、漏液等,本次比赛数据中包含了多种故障类型,但在数据中统一标注为故障标签“1”,不做进一步的区分。原创 2022-10-28 16:23:59 · 1725 阅读 · 0 评论 -
数据集快速生成方法集合
介绍一些我搜集和整理的数据集快速生成方法及案例原创 2022-09-16 11:08:56 · 6306 阅读 · 0 评论 -
60种特征工程操作:使用自定义聚合函数【收藏】
通过agg函数,可以同时对多列进行提取特征,非常适合用于特征工程。如果在Pandas内部的聚合函数不满足要求,也可以自定义聚合函数搭配使用。转载 2022-07-26 16:03:29 · 293 阅读 · 0 评论 -
【收藏】14种异常检测方法总结
14种异常检测方法总结转载 2022-06-15 22:24:23 · 404 阅读 · 0 评论 -
11种常见的时间序列预测方法
11种常见的时间序列预测方法原创 2022-05-02 22:01:59 · 29231 阅读 · 2 评论 -
Pandas DateTime 超强总结
pandas datetime总结原创 2022-04-28 17:35:04 · 2185 阅读 · 0 评论 -
时间序列基础-序列分解与序列预测
时间序列分析主要包括两方面内容:第一是序列分解;第二是序列预测。原创 2022-04-13 23:16:11 · 3701 阅读 · 0 评论 -
HBOS异常点检测
HBOS异常点检测转载 2022-04-13 17:28:49 · 456 阅读 · 0 评论 -
孤立森林异常点检测
孤立森林异常点检测转载 2022-04-13 17:05:18 · 1381 阅读 · 0 评论 -
多项式回归处理非线性问题
多项式回归处理非线性问题原创 2022-04-01 23:17:50 · 855 阅读 · 0 评论 -
gensim-word2vec相似词匹配
1、 下载wiki百科数据维基百科-资料库下载pages-articles.xml.bz2 为结尾的文件2、 解析wiki百科文本数据python3 wiki_to_txt.py zhwiki-20220201-pages-articles.xml.bz2import loggingimport sysfrom gensim.corpora import WikiCorpusdef main(): if len(sys.argv) != 2: print("原创 2022-02-24 18:43:42 · 1161 阅读 · 0 评论 -
聚类算法内部度量-si,ch,dbi
聚类算法内部度量-si,ch,dbi原创 2022-02-24 00:11:57 · 5969 阅读 · 2 评论 -
数据挖掘06-基于标准差和箱体图的单指标异常点检测【原理、数据及代码】
数据挖掘06-基于标准差和箱体图的单指标异常点检测一、基于箱体图二、基于标准差三、效果图及数据代码获取方式3.1 原数据3.2 检测结果汇总表格:3.3 数据及代码获取:在数据的处理过程中,不可避免的会产生缺失值、异常值,下面来讲一下我在工作中使用到的两种常见的判断异常值的方法。一、基于箱体图箱体图,即箱线图,从下到上五条线分别表示最小值、下四分位数、中位数、上四分位数和最大值。百度百科-箱线图箱体图是一种用于显示一组数据分散情况资料的统计图,可以通过设定标准,将大于或小于箱体图上下界的数值识别原创 2021-12-28 22:23:15 · 1961 阅读 · 0 评论 -
异常点检测算法工具库(pyod)介绍+代码
异常点检测算法工具库(pyod)一、PyOD介绍二、PyOD主要亮点三、工具库相关重要信息汇总:四、作者介绍:五、API介绍与实例(API References & Examples)六、代码及效果图6.1 代码6.2 效果图项目地址:https://github.com/yzhao062/Pyod#ramaswamy2000efficient参考资料:知乎-用PyOD工具库进行「异常检测」使用PyOD库在Python中进行离群值检测PyOD在线文档优快云-离群点异常检测及可视化分析原创 2021-12-07 22:39:18 · 18249 阅读 · 12 评论 -
数据挖掘05-偏相关分析【原理、案例、python实现】
数据挖掘05-偏相关分析【原理、案例、python实现】一、需求场景二、偏相关分析简介2.1 引入偏相关分析的原因2.2 什么是偏相关分析2.3 偏相关分析的步骤(1)计算样本的偏相关系数(2)对上一步求得的偏相关系数进行检验三、【案例分析】行驶里程与影响因素的偏相关分析3.1 速度3.2 温度3.3 电压3.4 总电流3.5 小结四、python偏相关分析4.1 数据源4.2 pandas4.2.1 一阶相关系数4.2.2 pcorr()4.3 numpy4.4 sicpy4.5 自己写公式参考资料:原创 2021-12-01 23:37:14 · 13519 阅读 · 2 评论 -
数据挖掘04-不同数据类型的特征处理
数据挖掘04-不同数据类型的特征处理一、特征与目标的概念二、数值型特征处理2.1 归一化2.2 离散化2.3.1 离散化的两种方式2.3.2 两种方式对比2.3 特征缩放2.4 特征标准化三、类别型特征处理3.1 标签编码3.1.1 直接替换字符串3.1.2 该列特征转化为 category 特征,然后再用编码得到的作为数据3.2 自定义二分类3.3 One-Hot编码3.3.1 pandas-get_dummies3.3.2 sklearn-DictVectorizer3.3.3 sklearn-Labe原创 2021-11-30 23:00:12 · 3067 阅读 · 0 评论 -
数据挖掘03-机器学习中了解数据特征的重要方法
数据挖掘03-机器学习中了解数据特征的重要方法一、分布分析1.1 理论介绍1.2 二手房数据分析案例1.2.1 参考房价定量分析一、分布分析1.1 理论介绍1.2 二手房数据分析案例1.2.1 参考房价定量分析一、分布分析1.1 理论介绍1.2 二手房数据分析案例1.2.1 参考房价定量分析1.2.2 房屋朝向定性分析二、对比分析2.1 理论介绍2.2 产品销量数据分析案例2.2.1 绝对数比较案例2.2.2 相对数比较案例:三、统计分析3.1 理论介绍3.2 数据分析案例:四、帕累托分析4.1 理论介绍4原创 2021-10-30 13:25:01 · 656 阅读 · 0 评论 -
数据挖掘02-特征工程良好特征的特点
数据挖掘02-特征工程良好特征的特点一、特征工程简介二、将原始数据映射到特征2.1 映射数值2.2 映射分类值2.2.1 独热编码2.3 稀疏表示法三、良好特征的特点3.1 避免很少使用的离散特征值3.2 最好具有清晰明确的含义3.3 实际数据内不要掺入特殊值3.4 考虑上游不稳定性3.5 清理数据3.6 缩放特征值3.7 处理极端离群值3.8 分箱3.9 清查3.10 了解数据四、特征组合:对非线性规律进行编码4.1 特征组合的种类五、特征组合:组合独热矢量一、特征工程简介传统编程的关注点是代码。原创 2021-09-15 00:10:19 · 405 阅读 · 0 评论 -
pandas.df生成sql语句字符串
pandas.df生成sql语句字符串Pandas.to_sql用法df生成SQL字符串CREATE字符串INSERT字符串pandas有一个to_sql函数,但它只在数据库连接上工作,不能生成字符串。Pandas.to_sql用法Pandas.to_sql-官方API文档DataFrame.to_sql(name, con, schema=None, if_exists='fail', index=True, index_label=None, chunksize=None, dtype=No原创 2021-09-13 10:55:50 · 2031 阅读 · 1 评论 -
pandas常用操作大全,最全!附文档下载
????????工作中最近常用到pandas做数据处理和分析,总结了以下常用内容。????如想下载到本地可访问以下地址pandas常用速查-githubpandas常用速查-giteepandas常用操作大全pandas常用速查引入依赖算法相关依赖获取数据生成df重命名列增加列缺失值处理独热编码替换值删除列数据筛选差值计算数据修改时间格式转换设置索引列折线图散点图柱状图热力图66个最常用的pandas数据分析函数从各种不同的来源和格式导入数据导出数据创建测试对象查看、检查数据数据选取数据清理筛原创 2021-03-30 23:14:35 · 2378 阅读 · 7 评论 -
数据挖掘07-数据分析之缺失值处理【方法+代码】
数据分析之缺失值填充(方法+代码)数据缺失的原因数据缺失的类型缺失处理方式1:删除方式2:常量填充方式3:插值填充方式4:KNN填充方式5:随机森林填充效果预览圣人曾说过:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。再好的模型,如果没有好的数据和特征质量,那训练出来的效果也不会有所提高。数据质量对于数据分析而言是至关重要的,有时候它的意义会在某种程度上会胜过模型算法。数据缺失的原因首先我们应该知道:**数据为什么缺失?**数据的缺失是我们无法避免的,可能的原因有很多种,博主原创 2021-04-13 16:26:56 · 13585 阅读 · 9 评论 -
数据清洗、数据挖掘常见十大问题
数据清洗、数据挖掘常见十大问题一、数据预处理、数据清洗和特征工程二、数据预处理和特征工程阶段**最常见的10个问题**1. 什么是数据 EDA?2. 缺失值的处理方式有哪些?3. 如何检测异常数据?如何处理?4. 什么是特征工程?有什么作用?5. 特征工程的一般步骤是什么?6. 特征衍生的方法有哪些?7. 对于时间序列特征、连续特征、离散特征如何做特征转换的?8. 如何处理样本不平衡问题?9. 特征筛选的作用和目的?10. 特征筛选的方法有哪些?优缺点各是什么?10.1 过滤法 Filter:10.2 嵌入原创 2021-04-03 23:21:24 · 3894 阅读 · 2 评论 -
数据挖掘01-相关性分析及可视化【Pearson, Spearman, Kendall】
数据挖掘01-相关性分析及可视化【Pearson, Spearman, Kendall】简介一、什么是相关性分析二、常见的相关性分析方法三、Pearson相关系数使用pandas对数据做Pearson相关性分析四、Spearman等级相关系数4.1 什么是等级相关4.2 为什么要运用等级相关?4.3 使用pandas对数据做Spearman相关性分析五、Kendall相关系数使用pandas对数据做Kendall相关性分析六、下三角相关性矩阵七、重点相关性矩阵八、参考资料:简介 有这么一句话在业界广原创 2021-09-12 22:09:17 · 26235 阅读 · 0 评论