
pandas
文章平均质量分 69
颢师傅
这个作者很懒,什么都没留下…
展开
-
【机器学习】python机器学习使用scikit-learn评估模型:基于普通抽样及分层抽样的k折交叉验证做模型选择
引入回归模型,检视在训练集上的均方误差,平均绝对误差;数据准备:以房屋地理位置、人群收入等,预测房价。原创 2022-08-15 06:53:49 · 763 阅读 · 0 评论 -
【机器学习】python机器学习scikit-learn和pandas进行Pipeline处理工作:归一化和标准化及自定义转换器(二)
不同于最小-最大缩放的是,标准化不将值绑定到特定范围,对某些算法而言,这可能是个问题(例如,神经网络期望的输入值范围通常是0~1)。但是标准化的方法受异常值的影响更小。例如,假设某个地区的平均收入为100(错误数据),最小-最大缩放会将所有其他值从0~15降到0~0.15,而标准化则不会受到很大影响。当调用流水线的fit()方法时,会在所有转换器上按照顺序依次调用fit_transform(),将一个调用的输出作为参数传递给下一个调用方法,直到传递到最终的估算器,则只会调用fit()方法。.........原创 2022-08-14 17:04:26 · 982 阅读 · 0 评论 -
【机器学习】python借助pandas及matplotlib将输入数据可视化,并计算相关性
数据准备:详见:【机器学习】python借助pandas及scikit-learn使用三种方法分割训练集及测试集用图像找出数据之间的关系:#输出线性相关度矩阵:原创 2022-08-13 20:00:00 · 916 阅读 · 0 评论 -
【机器学习】python借助pandas及scikit-learn使用三种方法分割训练集及测试集
1.以下3种方法采取的是纯随机抽样的方法做划分。如果数据集足够庞大(特别是相较于属性的数量而言),这种方式通常不错。#根据新的列值判断是否进入测试集:要求新增列具有唯一性,如没有可用索引列代替。#使用sklearn自带的方法。.........原创 2022-08-12 07:42:49 · 2212 阅读 · 0 评论 -
【机器学习】python借助pandas加载并显示csv数据文件,并绘制直方图
通过此函数检视pd各列名及内存使用情况。原创 2022-08-12 05:51:24 · 2072 阅读 · 0 评论 -
pandas输出数据及统计量并保存为excel
import pandas as pdimport numpy as np#生成1.1到1.8的1行100列的随机小数:np.random.seed(1)out=np.random.randint(110,150,[100],)stringName=["第%d次"%(x+1) for x in range(100)]myData=dict(zip(stringName,out))#由字典转换时记得设置索引myPd=pd.DataFrame(myData,index=[0])print(my原创 2022-03-15 22:30:13 · 1700 阅读 · 0 评论