
数据分析与处理
sdssee
这个作者很懒,什么都没留下…
展开
-
有关卡方检验(chi-square test )
1. 什么是卡方检验卡方检验是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。2. 卡方检验基本原理卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度。实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完...转载 2019-03-06 20:18:56 · 29372 阅读 · 1 评论 -
Pandas中的loc和iloc函数用法详解
loc函数:通过行索引 “Index” 中的具体值来取行数据(如取"Index"为"A"的行)iloc函数:通过行号来取行数据(如取第二行的数据)五种用法为:1.利用loc、iloc提取行数据import numpy as npimport pandas as pd#创建一个Dataframedata=pd.DataFrame(np.arange(16).reshape(4,4原创 2020-03-17 22:29:34 · 370 阅读 · 0 评论 -
混淆矩阵
分类评估指标中定义的一些符号含义TP(True Positive):将正类预测为正类数,真实为0,预测也为0FN(False Negative):将正类预测为负类数,真实为0,预测为1FP(False Positive):将负类预测为正类数, 真实为1,预测为0TN(True Negative):将负类预测为负类数,真实为1,预测也为1混淆矩阵定义及表示含义混淆矩阵是机器学习中总结分类...原创 2020-03-17 22:33:04 · 774 阅读 · 0 评论 -
决策树算法
首先实例化算法,传入参数树模型参数:criterion: gini or entropy 用熵值或者gini系数作为衡量标准splitter: best or random 前者是在所有特征中找最好的切分点,后者是在部分特征中(数据量大的时候)max_features: None(所有),log2,sqrt,N 特征小于50的时候一般使用所有的max_depth: 数据少或者特征少...原创 2020-03-17 22:31:52 · 144 阅读 · 0 评论 -
python处理数据pandas 之 groupby&agg
1. groupby ----按照某种指标对数据进行分类分析#首先构造数据集df2 = pd.DataFrame({'key1':['a', 'a', 'b', 'b', 'a'], 'key2':['one', 'two', 'one', 'two', 'one'], 'data1':np.random.randn(5), 'data2':np.random.r...原创 2020-03-17 22:28:41 · 478 阅读 · 0 评论