
机器学习
文章平均质量分 91
邵奈一
全栈工程师、市场洞察者、微信:shaonaiyi888
展开
-
可再生能源工厂系统 (REPS) - 项目源码
传感器收集、整理并发送有关生产系统健康状况的数据,如每小时的能源产量,而摄像头则记录并发送视频到服务器控制室,展示工厂内发生的事情,如人员的流动和运输方式(用于监控活动)或卡车装载物资的交换。数据:为了收集太阳能、风能和水能的数据,我们建议使用如 Fingrid.fi 这样的资源,它提供了关于能源生产和消费的全面数据。这包括检测各种类型的错误,并可能向用户提供清晰的指导,说明如何纠正它们。发电厂必须可靠、可持续且成本效益高。注意:确保遵循 Scala 风格指南,并使用适当的命名约定为变量、函数和类命名。原创 2024-07-20 17:38:38 · 1034 阅读 · 0 评论 -
安装Anaconda所遇到的一些问题
安装Anaconda所遇到的一些问题原创 2024-01-28 16:46:56 · 643 阅读 · 0 评论 -
大数据HCIE成神之路之特征工程——特征选择
该方法可以移除数据集中低方差的特征,只有一个参数threshold:float,选填,默认为0,表示指定删除训练集特征的方差的阈值,此处指定的阈值为0.5,即特征方差小于0.5的特征会被删除;利用随机森林方法进行特征选择,特征重要性的得分存在不稳定的现象,这不仅仅是随机森林特有的,大多数基于模型的特征选择方法都存在这个问题。,生成随机数据,利用线性回归模型对生成的数据拟合,建立一个回归模型,通过打印模型的具体形式,观察线性回归各个自变量的系数,也就是每个特征的权重,数值越大的,对应的特征越应该被保留。原创 2024-01-03 23:41:32 · 1132 阅读 · 0 评论 -
大数据HCIE成神之路之数据预处理(6)——特征编码
通过独热编码,学历特征被转换为一个包含5个维度的二进制向量,每个样本的学历都可以用该二进制向量来表示。对于离散特征可以采用One-Hot编码的方式来处理,使用M位状态寄存器对M个状态进行编码,M个变量用M维表示,每个维度的数值或为1,或为0。每个取值对应一个维度,总共有5个维度,每个维度上的值为1表示该样本的学历属于对应的取值,为0表示不属于该取值。由上述实验结果可知,使用map()函数将原有数据集中的female和male,成功的离散化为1和0。掌握对数据进行有序分类变量的离散化的操作。原创 2023-12-27 23:32:18 · 1215 阅读 · 0 评论 -
大数据HCIE成神之路之数据预处理(5)——偏态数据处理
答案:计算第三列元素与该列最大值之间的差值的平方根的目的可能是为了进行数据的标准化或者变换,以探索数据的分布特征或进行数据预处理。第一个参数是插入位置的索引,第二个参数是新列的名称,第三个参数是一个列表,包含了要插入的每个行的值。数据集来自开源网络,分别有4个特征表征数据分布的不同特点,中度正偏斜(右偏斜),高度正偏斜(右偏),中度负偏态(左偏态),高度负偏斜(左偏斜)。数据集,对数据进行简单解读和整合后,通过调用平方根法,对数变换,Box-Cox对数据进行转换,对比前后变化,分析3种方法的区别。原创 2023-12-26 23:49:44 · 803 阅读 · 0 评论 -
大数据HCIE成神之路之数据预处理(3)——特征缩放
当涉及到特征缩放的选择时,我们需要考虑数据的特点以及所使用的机器学习算法。标准化可以消除特征之间的量纲差异,使得数据更易于比较和分析。标准化适用于大多数机器学习算法,特别是那些依赖于距离度量的算法,如支持向量机(SVM)和K近邻(KNN)算法。最小值-最大值归一化是另一种常见的特征缩放方式,它将特征缩放到一个指定的范围(通常是0到1之间)。这种缩放方式可以保留原始数据的分布形状和结构。原创 2023-12-25 23:45:29 · 201 阅读 · 0 评论 -
大数据HCIE成神之路之数据预处理(2)——异常值处理
这在鸢尾花数据集中是合理的,因为每个类别的名称都不会超过 10 个字符,所以使用这个数据类型的数组可以有效地存储和表示类别名称。splitter可选参数,代表特征划分点选择标准,splitter=best为针对所有特征找出最优的特征划分点,splitter=random为随机的在部分特征中找局部最优的划分点。综上所述,该for循环遍历了鸢尾花数据集中的每个类别,根据类别的索引选择相应的特征数据作为 x 轴和 y 轴,并使用不同的颜色和标签将它们可视化成散点图。然而,需要注意的是,3σ原则是基于。原创 2023-12-17 15:01:58 · 210 阅读 · 0 评论 -
大数据HCIE成神之路之数据预处理(1)——缺失值处理
成神系列教程,大数据HCE成神之路之数据预处理(1)——缺失值处理原创 2023-12-10 21:46:14 · 223 阅读 · 0 评论 -
大数据HCIE成神之路之数学(4)——最优化实验
最小二乘法(Least Square Method),做为分类回归算法的基础,有着悠久的历史。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的参数,并使得预测的数据与实际数据之间误差的平方和为最小。通俗地解释:最小二乘法是一种数学方法,它可以帮助我们找到一条直线,使得这条直线与一些散点数据的距离之和最小。这就像是在一堆点中找到一条最合适的线,使得这条线与所有点的距离之和最小。原创 2023-11-29 23:53:08 · 366 阅读 · 1 评论 -
机器学习入门案例(3)之使用决策树预测是否适合打网球
使用决策树根据天气、气温、湿度、风力四种特征预测是否适合打网球原创 2023-11-14 23:52:35 · 1561 阅读 · 1 评论 -
机器学习入门案例(2)之使用逻辑回归预测房子是否能被租出去
同学们可以继续修改租金跟面积,租金不变,面积变大,看看概率是多少,租金变多,面积不变,看看概率是多少。请继续关注我,我将更新更多使用教程。邵奈一原创不易,如转载请标明出处,教育是一生的事业。原创 2023-09-13 17:35:50 · 247 阅读 · 1 评论 -
机器学习入门案例(1)之使用线性回归预测房价
这是最基础的入门教学案例。请继续关注我,我将更新更多使用教程。邵奈一原创不易,如转载请标明出处,教育是一生的事业。原创 2023-09-04 17:53:38 · 1022 阅读 · 0 评论