
机器学习
文章平均质量分 89
lymboy
计算机研究生在读,大数据方向。欢迎交流!
展开
-
基于数据驱动的电动车电池数据分析(一)
基于数据驱动的电动车电池数据分析(一)欢迎关注笔者的微信公众号笔者过去一年多的时间都在国内一家头部新能源企业实习,主要参与一些数据分析和平台研发的工作。在工作中积累了一些数据分析的经验,其中新能源领域比较多的是一些化工生产,智能制造方面的数据,这些数据类型主要是时序型数据。这里就工作期间学习和总结的一些经验跟大家分享。什么是时间序列预测时间序列数据是一种随时间收集的数据类型,其中值按时间顺序排列,并具有与其相关的时间戳或索引。时间序列中的数据点通常在时间上间隔相等,尽管在某些情况下它们可能间隔不原创 2023-03-02 14:14:35 · 1423 阅读 · 1 评论 -
可交互绘图-Plotly
Plotly 是一个 Python 库,用于设计图形,尤其是交互式图形。它可以绘制各种图形和图表,如直方图、条形图、箱线图、展开图等等。它主要用于数据分析以及财务分析。原创 2022-05-07 23:44:59 · 2776 阅读 · 0 评论 -
Scikit-plot画图
在机器学习过程中画图是一个重要的步骤,例如在分类任务中需要画P-R曲线,AUC曲线,混淆曲线等,使用matpotlib, Seaborn等类库作图需要多写几行代码,例如设置`title`,`xlim`,`ylim`,`lengend`等,如果有一个工具库可以封装这些操作的话可以帮助我们节省时间,提升开发效率,从而专注在算法/业务的改进上。原创 2022-04-07 11:37:04 · 2885 阅读 · 0 评论 -
箱线图的几种画法-Python
箱线图的几种画法-Python欢迎关注笔者的微信公众号箱线图是一种强大的数据可视化工具,用于了解数据的分布。它将数据分成四分位数,并根据从这些四分位数得出的五个数字对其进行汇总:中位数:数据的中间值。标记为 Q2,描绘了第 50 个百分点。第一个四分位数:“最小非异常值”和中位数之间的中间值。标记为 Q1,描绘了第 25 个百分点。第三四分位数:“最大非异常值”和中位数之间的中间值。标记为 Q3,描绘了第 75 个百分点。“最大非异常值”:按 (Q3 + 1.5*IQR) 计原创 2021-12-24 21:11:03 · 36747 阅读 · 0 评论 -
税务合规性预测
前言本项目使用数据挖掘相关算法对企业税务是否合规进行预测。本项目主要使用了XGBoost和随机森林两种算法进行对比分析。整个项目包含了一般项目的所有流程:特征预处理,特征编码,特征过滤,数据集切分,模型训练,模型评价,可视化检视。经过实验对比分析,随机森林的预测效果略优于XGBoost,他们的准确率最高都能达到80%以上(随机森林可达86%)。本项目所用的数据集来源于公众号:Dathon数据分析实验部分数据集介绍本实验所用数据集是关于某汽车销售行业124位纳税人的纳税情况。数据集保存为csv格式,.原创 2021-07-24 23:26:35 · 792 阅读 · 0 评论 -
回归模型的损失度量方法
欢迎关注笔者的微信公众号之前的分类模型写完后同学问我有没有回归的模型评价方法,现在,它来了 刚开始,我直接搜索回归模型的评价方法有哪些,但是突然想起来之前学习线性回归模型的时候有用到均方误差计算损失,于是猜想sklearn中十有八九有提供相应的损失评价方法,于是一共提供有11种方法接下来对每个方法简单介绍,最后给出相关示例代码。之前介绍的最小二乘法用来计算拟合误差是一个理论上的方法,在实际情况中有很大的局限性:∑i=1m(ytest(i)−y^test(i))2\sum_{i=1}^m原创 2021-06-20 17:47:09 · 956 阅读 · 1 评论 -
基于sklearn的分类模型评估方法
在模型评估过程中,分类问题、排序问题、回归问题往往需要使用不同的指标进行评估。在诸多的评估指标中,大部分指标只能片面地反映模型的一部分性能。如果不能合理地运用评估指标,不仅不能发现模型本身的问题,而且会得出错误的结论。与线性回归问题不同,分类问题,或者说逻辑回归问题输出的是离散值,即判断某件事物属于哪个类别。事实上,逻辑回归模型输出的是一个概率值,通过将这个概率预测值与设定的分类阈值(threshold)进行比较,若大于阈值则分为正类,否则为反类。评价指标准确率(Accuracy),精确率(Preci原创 2021-06-18 10:35:44 · 2041 阅读 · 1 评论 -
机器学习之最小二乘法
最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。当我们需要设计一个线性函数(y=ax+b 或 Ax+Bx+C=0y=ax+b \ 或 \ Ax+Bx+C=0y=ax+b 或 Ax+Bx+C=0)去拟合一些呈线性关系的数据点时,我们如何评价我们设计的拟合函数的拟合效果呢?换言之,我们如何评价我们设计的拟合函数与实际值的差距、.原创 2021-06-16 18:43:22 · 3093 阅读 · 3 评论 -
K-近邻算法
欢迎关注笔者的微信公众号最近邻居法(KNN算法,又译K-近邻算法)是一种用于分类和回归的非参数统计方法。在这两种情况下,输入包含特征空间(Feature Space)中的K个最接近的训练样本。在KNN分类中,输出是一个分类族群。一个对象的分类是由其邻居的“多数表决”确定的,k个最近邻居(k为正整数,通常较小)中最常见的分类决定了赋予该对象的类别。若k = 1,则该对象的类别直接由最近的一个节点赋予。在KNN回归中,输出是该对象的属性值。该值是其k个最近邻居的值的平均值。最近邻居法采用向量空原创 2021-06-11 16:58:37 · 1203 阅读 · 1 评论 -
k-means聚类算法及其优化
k-means聚类算法及其优化在机器学习中有这样一种场景,需要对已知数据按照一定的关系归到不同的类别中(无监督)k-means是比较流行的聚类方法其基本算法流程如下:随机设置K个特征空间内的点作为初始的聚类中心对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中心点作为标记类别接着对着标记的聚类中心之后,重新计算出每个聚类的新中心点(平均值)如果计算得出的新中心点与原中心点一样(质心不再移动),那么结束,否则重新进行第二步过程# Author: Phil Roth <m原创 2021-05-14 20:28:20 · 5559 阅读 · 16 评论