
机器学习
文章平均质量分 92
SeafyLiang
即使再小的帆,也能远航️
展开
-
特征工程资料整理,如何从数据中挖掘特征
数据的表达就是原始数据经过clean and transformer得到features的过程,即为特征工程。原创 2022-12-29 16:55:02 · 895 阅读 · 0 评论 -
vLoong能源AI挑战赛——异常检测赛Top2方案开源
新能源车辆电池的故障检测对于及时发现车辆问题、排除隐患、保护人的生命财产安全有着重要意义。新能源电池的故障是多种多样的,包括热失控、析锂、漏液等,本次比赛数据中包含了多种故障类型,但在数据中统一标注为故障标签“1”,不做进一步的区分。原创 2022-10-28 16:23:59 · 1725 阅读 · 0 评论 -
数据集快速生成方法集合
介绍一些我搜集和整理的数据集快速生成方法及案例原创 2022-09-16 11:08:56 · 6306 阅读 · 0 评论 -
【收藏】14种异常检测方法总结
14种异常检测方法总结转载 2022-06-15 22:24:23 · 404 阅读 · 0 评论 -
11种常见的时间序列预测方法
11种常见的时间序列预测方法原创 2022-05-02 22:01:59 · 29231 阅读 · 2 评论 -
时间序列基础-序列分解与序列预测
时间序列分析主要包括两方面内容:第一是序列分解;第二是序列预测。原创 2022-04-13 23:16:11 · 3701 阅读 · 0 评论 -
HBOS异常点检测
HBOS异常点检测转载 2022-04-13 17:28:49 · 456 阅读 · 0 评论 -
孤立森林异常点检测
孤立森林异常点检测转载 2022-04-13 17:05:18 · 1381 阅读 · 0 评论 -
多项式回归处理非线性问题
多项式回归处理非线性问题原创 2022-04-01 23:17:50 · 855 阅读 · 0 评论 -
九种顶流回归算法及实例总结
九种顶流回归算法及实例总结转载 2022-03-18 17:40:30 · 806 阅读 · 0 评论 -
gensim-word2vec相似词匹配
1、 下载wiki百科数据维基百科-资料库下载pages-articles.xml.bz2 为结尾的文件2、 解析wiki百科文本数据python3 wiki_to_txt.py zhwiki-20220201-pages-articles.xml.bz2import loggingimport sysfrom gensim.corpora import WikiCorpusdef main(): if len(sys.argv) != 2: print("原创 2022-02-24 18:43:42 · 1161 阅读 · 0 评论 -
聚类算法内部度量-si,ch,dbi
聚类算法内部度量-si,ch,dbi原创 2022-02-24 00:11:57 · 5969 阅读 · 2 评论 -
三种常见的超参调优方法及代码
三种常见的超参调优方法及代码实验基础代码一、网格搜索(GridSearch)1.1 GridSearch算法代码1.2 可视化解释二、随机搜索(RandomSearch)三、贝叶斯优化(BO)四、结论超参数调优方法:网格搜索(GridSearch),随机搜索(RandomSearch),贝叶斯优化(BO)等算法。参考资料:三种超参数优化方法详解,以及代码实现实验基础代码import numpy as npimport pandas as pdfrom lightgbm.sklearn i转载 2022-02-07 22:44:33 · 3814 阅读 · 1 评论 -
时序预测工具库(Prophet)介绍+代码
时序预测工具库(Prophet)一、Prophet 简介二、Prophet 适用场景三、Prophet 算法的输入输出四、Prophet 算法原理六、代码6.1 依赖安装6.2 预测demo6.3 效果图七、参考资料八、官方链接:九、案例链接:项目地址:https://aistudio.baidu.com/aistudio/projectdetail/525311?channelType=0&channel=0参考内容:时间序列模型Prophet使用详细讲解初识Prophet模型(一)--原创 2021-12-07 23:08:42 · 36591 阅读 · 7 评论 -
异常点检测算法工具库(pyod)介绍+代码
异常点检测算法工具库(pyod)一、PyOD介绍二、PyOD主要亮点三、工具库相关重要信息汇总:四、作者介绍:五、API介绍与实例(API References & Examples)六、代码及效果图6.1 代码6.2 效果图项目地址:https://github.com/yzhao062/Pyod#ramaswamy2000efficient参考资料:知乎-用PyOD工具库进行「异常检测」使用PyOD库在Python中进行离群值检测PyOD在线文档优快云-离群点异常检测及可视化分析原创 2021-12-07 22:39:18 · 18249 阅读 · 12 评论 -
数据挖掘05-偏相关分析【原理、案例、python实现】
数据挖掘05-偏相关分析【原理、案例、python实现】一、需求场景二、偏相关分析简介2.1 引入偏相关分析的原因2.2 什么是偏相关分析2.3 偏相关分析的步骤(1)计算样本的偏相关系数(2)对上一步求得的偏相关系数进行检验三、【案例分析】行驶里程与影响因素的偏相关分析3.1 速度3.2 温度3.3 电压3.4 总电流3.5 小结四、python偏相关分析4.1 数据源4.2 pandas4.2.1 一阶相关系数4.2.2 pcorr()4.3 numpy4.4 sicpy4.5 自己写公式参考资料:原创 2021-12-01 23:37:14 · 13519 阅读 · 2 评论 -
数据挖掘04-不同数据类型的特征处理
数据挖掘04-不同数据类型的特征处理一、特征与目标的概念二、数值型特征处理2.1 归一化2.2 离散化2.3.1 离散化的两种方式2.3.2 两种方式对比2.3 特征缩放2.4 特征标准化三、类别型特征处理3.1 标签编码3.1.1 直接替换字符串3.1.2 该列特征转化为 category 特征,然后再用编码得到的作为数据3.2 自定义二分类3.3 One-Hot编码3.3.1 pandas-get_dummies3.3.2 sklearn-DictVectorizer3.3.3 sklearn-Labe原创 2021-11-30 23:00:12 · 3067 阅读 · 0 评论 -
推荐系统简介
推荐系统简介一、 标题推荐系统的目的二、推荐系统的基本思想三、推荐系统的数据分析四、推荐系统分类4.1 基于人口统计学4.2 基于内容4.3 基于协同过滤4.3.1 基于用户的协同过滤4.3.2 基于物品的协同过滤4.4 混合推荐五、推荐系统实验方法六、推荐系统的评测指标6.1 评分预测6.2 Top-N推荐6.3 准确率、精确率和召回率七、参考资料一、 标题推荐系统的目的信息过载推荐系统推荐系统是信息过载所采用的措施,面对海量的数据信息,从中快速推荐出符合用户特点的物品。解决一些人的“选择恐惧原创 2021-11-30 21:44:54 · 1327 阅读 · 0 评论 -
AI算法模型线上部署方法总结
AI算法模型线上部署方法总结一、机器学习算法线上部署方法1.1 三种场景1.2 如何转换PMML,并封装PMML1.3 接下来说一下各个算法工具的工程实践1.3.1 python模型上线:我们目前使用了模型转换成PMML上线方法。1.3.2 R模型上线-这块我们用的多,可以用R model转换PMML的方式来实现。1.3.3 Spark模型上线-好处是脱离了环境,速度快。1.4 只用Linux的Shell来调度模型的实现方法—简单粗暴1.5 说完了部署上线,说一下模型数据流转的注意事项二、机器学习算法的部署原创 2021-11-08 18:54:54 · 13688 阅读 · 2 评论 -
数据挖掘03-机器学习中了解数据特征的重要方法
数据挖掘03-机器学习中了解数据特征的重要方法一、分布分析1.1 理论介绍1.2 二手房数据分析案例1.2.1 参考房价定量分析一、分布分析1.1 理论介绍1.2 二手房数据分析案例1.2.1 参考房价定量分析一、分布分析1.1 理论介绍1.2 二手房数据分析案例1.2.1 参考房价定量分析1.2.2 房屋朝向定性分析二、对比分析2.1 理论介绍2.2 产品销量数据分析案例2.2.1 绝对数比较案例2.2.2 相对数比较案例:三、统计分析3.1 理论介绍3.2 数据分析案例:四、帕累托分析4.1 理论介绍4原创 2021-10-30 13:25:01 · 656 阅读 · 0 评论 -
数据挖掘02-特征工程良好特征的特点
数据挖掘02-特征工程良好特征的特点一、特征工程简介二、将原始数据映射到特征2.1 映射数值2.2 映射分类值2.2.1 独热编码2.3 稀疏表示法三、良好特征的特点3.1 避免很少使用的离散特征值3.2 最好具有清晰明确的含义3.3 实际数据内不要掺入特殊值3.4 考虑上游不稳定性3.5 清理数据3.6 缩放特征值3.7 处理极端离群值3.8 分箱3.9 清查3.10 了解数据四、特征组合:对非线性规律进行编码4.1 特征组合的种类五、特征组合:组合独热矢量一、特征工程简介传统编程的关注点是代码。原创 2021-09-15 00:10:19 · 405 阅读 · 0 评论 -
数据挖掘01-相关性分析及可视化【Pearson, Spearman, Kendall】
数据挖掘01-相关性分析及可视化【Pearson, Spearman, Kendall】简介一、什么是相关性分析二、常见的相关性分析方法三、Pearson相关系数使用pandas对数据做Pearson相关性分析四、Spearman等级相关系数4.1 什么是等级相关4.2 为什么要运用等级相关?4.3 使用pandas对数据做Spearman相关性分析五、Kendall相关系数使用pandas对数据做Kendall相关性分析六、下三角相关性矩阵七、重点相关性矩阵八、参考资料:简介 有这么一句话在业界广原创 2021-09-12 22:09:17 · 26235 阅读 · 0 评论 -
常见时序算法集合【资源整理】
常见时序算法集合学习资料1:十大时序算法模型十大时序算法模型学习资料2:Kats时间序列王器-Kats1. Kats的优势2. Kats的功能学习资料3:NeuralProphetNeuralProphet1. Prophet2. NeuralProphet3. NeuralProphet VS Prophet学习资料4:ProphetProphet 简介Prophet 适用场景Prophet 算法的输入输出Prophet 算法原理与机器学习算法的对比代码参考资料官方链接:案例链接:学习资料1:十大时序算原创 2021-08-31 10:32:20 · 2472 阅读 · 0 评论 -
降维算法总结(超全!附代码)
降维算法总结(超全!附代码)一、为什么要进行数据降维?二、数据降维原理三、主成分分析(PCA)降维算PCA代码实现四、其他降维算法及代码地址效果总览及代码地址KPCA(kernel PCA)LDA(Linear Discriminant Analysis)MDS(multidimensional scaling)ISOMAPLLE(locally linear embedding)t-SNELE(Laplacian Eigenmaps)LPP(Locality Preserving Projections)原创 2021-07-13 15:53:38 · 23228 阅读 · 0 评论 -
图解最常用10大机器学习算法
图解最常用10大机器学习算法01 线性回归02 逻辑回归03 线性判别分析04 分类和回归树05 朴素贝叶斯06 K临近07 学习矢量量化08 支持向量机09 bagging和随机森林10 Boosting和AdaBoost01 线性回归线性回归可能是统计学和机器学习中最知名和最易理解的算法之一。由于预测建模主要关注最小化模型的误差,或者以可解释性为代价来做出最准确的预测。 我们会从许多不同领域借用、重用和盗用算法,其中涉及一些统计学知识。线性回归用一个等式表示,通过找到输入变量的特定权重(B),来转载 2021-04-16 21:21:57 · 473 阅读 · 0 评论