- 博客(16)
- 收藏
- 关注
原创 如何理解T检验和P值
p值是一组数据的均值(以及比这种数据更极端的数据的均值)在另一组数据的均值所代表的总体中出现的概率。当p值越小,说明两者差异越显著,因为这说明一组数据是另一组数据所代表的总体中的样本的可能越小(因为两者的均值差异)。转载:https://zhuanlan.zhihu.com/p/104351327 知乎。t检验是通过比较不同数据的均值,研究两组数据之间是否存在显著差异。
2023-03-26 22:31:29
1478
原创 皮尔逊相关系数及假设检验
(1)显著水平,就是P值,这是首要的,因为如果不显著,相关系数再高也没用,可能只是因为偶然因素引起的,那么多少才算显著,一般p值小于0.05就是显著了;例如p值=0.001,就是很高的显著水平了,只要显著,就可以下结论说:拒绝原假设无关,两组数据显著相关也说两者间确实有明显关系.通常需要p值小于0.1,最好小于0.05设甚至0.01,才可得出结论:两组数据有明显关系,如果p=0.5,远大于0.1,只能说明相关程度不明显甚至不相关.起码不是线性相关.而且一般要先在p值满足要求的前提下再去谈相关系数的大小。
2023-03-26 21:32:15
9654
原创 Sklearn里fit , transform ,fit_transform
只有有信息的转换类的fit方法才实际有用,在这点上,fit方法和模型训练时的fit方法就能够联系在一起了:都是通过分析特征和目标值,提取有价值的信息。另外,只有有监督的转换类的fit和transform方法才需要特征和目标值两个参数,即有监督学习的算法fit(x,y)传两个参数。对trainData进行fit的整体指标,找到该part的整体指标,如均值、方差、最大值最小值等等(根据具体转换的目的);无监督转换指只利用特征的统计信息的转换,统计信息包括均值、标准差、边界等等,比如标准化、PCA法降维等。
2023-03-24 15:05:13
573
原创 Sklearn之StandardScaler(数据预处理)
因为它们不关心变量的值,而是关心变量的分布和变量之间的条件概率,如决策树、RF、XGboost。而像Adaboost、SVM、LR、Knn、KMeans之类的最优化问题就需要归一化。作用:使得经过处理的数据符合标准正态分布,即均值为0,标准差为1。1.哪些机器学习算法不需要(需要)做归一化?x*=x-所有样本的均值μ/所有样本的标准差。2.StandardScaler原理。
2023-03-23 16:23:40
1135
转载 python中metrics的用法
本文为复制粘贴他人文章,为了方便自己学习。原文链接:https://blog.youkuaiyun.com/Z201209/article/details/126836993。
2023-03-23 14:55:20
740
原创 数据标准化(数据预处理)
当遇到某个指标的最大值和最小值未知的情况,或有超出取值范围的离群数值时,上面的方法就不再适用了,可以采用另一种数据标准化最常用的方法,即Z-score标准化,也叫标准差标准化法。它基于原始数据的均值(mean)和标准差(standarddeviation)进行数据的标准化,将A的原始值x使用z-score标准化到x’。z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。(2)在训练神经网络的过程中,通过将数据标准化,能够加速权重参数的收敛;
2023-03-21 23:22:21
1422
转载 python虚拟环境、conda命令
使用 conda create -n your_env_name python=X.X(2.7、3.6等)命令创建python版本为X.X、名字为your_env_name的虚拟环境。使用命令conda install -n your_env_name [package]即可安装package到your_env_name中。可以打开命令行输入conda -V检验是否安装以及当前conda的版本。使用命令conda remove --name your_env_name package_name 即可。
2023-03-21 22:40:12
1762
原创 机器学习之交叉验证
简单交叉验证:随机地将数据分为训练集和测试集,比如70%训练集,30%测试集,然后在不同条件下训练模型,选择最好的。k-fold交叉验证:将数据分成k份,每次用k-1份做训练,1份做测试,重复k次,选择最好的模型。交叉验证分为简单交叉验证和k-fold交叉验证。(这里不对留1交叉验证和留n交叉验证做说明)
2023-03-21 20:38:04
127
原创 python实现集成算法(随机森林、boosting算法、stacking算法)(小白入门超简单实战)
如果自变量都是一样的,根据相同的自变量去训练多个模型求平均是没有意义的。随机森林:是一种由决策树构成的bagging集成算法,森林指的是很多棵树,随机指的是样本和特征都随机抽取(有放回的随机抽取,保证森林里面的每棵树都是不那么一样的)。stacking代码:(忽略in[]括号里的顺序,按照代码排序运行即可,因为我反复运行程序了导致in[]顺序与代码排序不同):用不同的算法去训练多个模型,把多个模型的输出结果作为自变量再去建一个模型。常见的有Adaboost算法、xgboost算法、GBDT算法。
2023-03-20 22:12:43
1198
原创 numpy里随机数模块random的常见函数
randn函数:生成2行2列的数值在(-1,1)之间的矩阵。rand函数:生成2行2列的数值在(0,1)之间的矩阵。randint函数:生成1-10之间的5个数。numpy里随机数模块random的常见函数。
2023-03-17 21:24:01
136
原创 python实现决策树回归模型(小白入门超简单实战)
RAD - 径向高速公路的可达性指数 ------【距离高速公路的便利指数】PTRATIO - 城镇的学生与教师比例 ------【城镇中教师学生比例】------【城镇中非商业用地占比例】B - 1000(Bk - 0.63)^ 2其中Bk是城镇黑人的比例 ------【城镇中黑人比例】
2023-03-17 21:13:55
589
原创 python实现决策树分类模型(小白入门超简单实战)
预备知识:train_test_split()是sklearn包的model_selection模块中提供的随机划分训练集和测试集的函数;export_graphviz(DTC,out_file=‘想保存的路径/classify_tree.dot’,feature_names=iris.feature_names,class_names=iris.target_names)不固定随机种子时,同样的代码,得到的训练集数据不同。数据集:Iris(鸢尾花卉数据集),是一类多重变量分析的数据集。
2023-03-17 20:43:23
1323
原创 (Windows,ten2.0)python0-9数字识别系统搭建(MNIST数据集)
(tensorflow2,Windows) 0-9手写数字识别系统搭建(基于MNIST数据集)
2022-01-24 00:50:09
3617
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1