- 博客(14)
- 收藏
- 关注
原创 知识体系_统计学_05_单总体参数估计
为了推断总体的某些特征(如总体均值、总体比例、总体方差),需要采用一定抽样技术从总体中抽取若干个体,所抽取的部分个体称为样本,样本中所包含个体的数量称为样本量。例如研究某城市居民家庭收入时,随机抽取1000户进行调查,这1000户就是一个样本,样本量是1000,以这1000个个体的收入来推断总体的居民家庭收入,可靠性如何?正是抽样分布要研究的问题。设是从总体中抽取的样本量为n的一个样本,由此样本构造一个函数不依赖于任何未知的参数,则称函数。
2025-03-30 23:15:06
679
原创 知识体系_统计学_21_概率分布表
在利用样本统计量对总体参数进行区间估计和假设检验时,样本统计量的常见的概率分布主要有:正态分布、t分布、分布、F分布等,本文将提供这几种概率分布的概率表,便于需要查找概率值时使用。
2025-03-16 10:51:25
375
原创 知识体系:信用评分模型技术与应用_08_申请风险评分模型的开发与应用
观察期:观察、提炼与模型所要预测的风险表现有一定相关性的变量的时期表现期:提炼模型所要预测的信用表现的时期。表现期的时间长短没有明确标准,一般对于信用卡,表现期为6至18个月,购房贷款定位24至36个月。表现期长的好处是申请者的风险能充分地表现出来,但问题是由于时间太长,申请者的资信情况可能与申请时的资信情况发生较大变化,从而利用申请前的信息预测未来风险表现(长表现期)可能准确性会下降。而相反地,表现期短的好处是利用申请前的信息预测风险表现(短表现期)准确性较精准。
2025-03-14 08:34:04
720
原创 知识体系_统计学_02_描述性统计
对数据的概括性度量可从三方面进行测量和描述:集中趋势、离中趋势和分布形态。集中趋势,反映的是各数据向其中心值靠拢或聚集的程度;离中趋势,反映的是数据的离散程度,远离中心值的趋势;分布形态反映的是分布的偏态和峰态
2025-01-24 23:16:36
830
原创 知识体系_数据分析挖掘_04_机器学习算法_分类_分类常见问题
机器学习中,常常面临样本不平衡的问题,比如违约客户(少数类)数量远少于正常还款客户(多数类)。针对样本不平衡,常见的解决思路有:过采样、欠采样、样本加权。样本不平衡情况会导致模型在训练时倾向于将大部分样本预测为多数类,对违约客户的预测能力较差。
2024-12-25 23:14:57
452
原创 知识体系_统计学_08_利用卡方检验分析分类数据
检验的另一个重要应用是利用样本数据检验两个分类型变量的独立性;从一个总体中抽取样本,并记录两个分类型变量的观测值,通过对分类型变量1的取值和分类型变量2的取值的每一种组合统计频数汇总数据(即列联表);在假设检验时将“两个分类变量独立”作为原假设,这种检验称为“独立性检验”。
2024-11-02 16:25:35
413
原创 知识体系_统计学_07_假设检验
几乎所有的研究领域都要用到实验,实验设计的目的是为了验证或推翻某个假设;推断统计旨在从有限数据集上得到的实验结果作为对总体的推断,推断统计的流程:参数估计和假设检验是推断统计的两个组成部分,都是利用样本对总体进行某种推断,以抽样分布为理论依据,都是建立在概率基础上的推断,推断结果都有一定可信度和风险;参数估计和假设检验推断的角度不同,参数估计是利用样本统计量估计总体参数,总体参数在估计前是未知的。而假设检验是先对总体参数进行假设,然后利用样本的信息来检验假设是否成立。
2024-10-24 23:20:07
1001
原创 知识体系_统计学_04_抽样
若我们通过某种方式抽样1000户进行调查,则这1000户是一个样本,样本量为1000(ps:我们平时容易混淆xx个样本和样本量的说法,例如我们容易将一个容量为1000的样本,表述成抽取了1000个样本,这样表达其实是错误的)从总体抽取的一个子集就称为一个样本。样本统计量:即对样本数据进行一定运算得到的值,即F(x1,x2,x3......xn),且不依赖于任何未知的参数;推断不同的总体参数,则需要构造不同的样本统计量。总体参数:对总体数据进行一定运算,得到某些代表性的数字,用以反映数据的某些特征。
2024-10-14 22:20:33
1011
原创 知识体系_统计学_01_统计学概述
统计学是一门研究如何从数据到结论的学科,即研究从如何收集数据、整理数据、展示和分析数据,解释数据得出结论的方法论学科,旨在从数据中得到有用的信息
2024-07-06 00:44:34
908
1
原创 知识体系_数据分析挖掘_01_数据分析概述
数据:对事物的描述和记录,是信息的表现形式数据分析:明确要分析的问题,收集相关数据,处理数据,并借助数据分析方法和工具,对数据进行分析,得到有用的信息和结论,助力科学决策,从而驱动改变,迭代增长(数据--->有用信息/结论)数据分析与数据挖掘:数据挖掘是一种高阶的数据分析方法,侧重解决分类、聚类、关联、预测,重点在于寻找模式与规律,但本质上是一样的,都是从数据里面发现关于业务的知识。注:数据并不局限于狭义上的“数字”,一切可用于分析的素材都可称为数据,还可以是文字、图片、视频、音频等等。
2023-02-05 15:58:35
115
原创 决策树算法原理
一、决策树各算法比较决策树算法主要有:ID3、C4.5、C5.0、CART等算法,下面表格是这几种算法的比较: 算法 分类/回归 特征类型 分裂特征 几叉树 缺点 优点 ID3 分类 离散...
2020-01-22 21:03:03
642
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人