
数学建模
文章平均质量分 65
牛右刀薛面
Know-what and Know-how
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
使用Lingo做灵敏度分析
打开solver中的options选项找到options中的General Solver3.找到Dual Computations一栏,将状态调整为Prices&Ranges点击OK。4.写好代码以后,按Ctrl+r即可原创 2021-03-13 15:50:36 · 27870 阅读 · 6 评论 -
(12)数据分析-逐步回归
import statsmodels.formula.api as smfimport pandas as pddef forward_selected(data, response): remaining = set(data.columns) remaining.remove(response) selected = [] current_score, best_new_score = 0.0, 0.0 while remaining and curre原创 2021-09-09 09:23:44 · 495 阅读 · 0 评论 -
(11)数据分析-TableOne工具
1、前言&esmp;&esmp;使用TableOne工具能够为我们初期进行数据分析提供很好的导向,直接得出因变量Y与每一个自变量的分析结果。但是不一定准确,因为分析方法不是对于任何类型的自变量和因变量都是有效的,只能说作为一个参考工具。有的时候还是很有用的。 TableOne工具导出的xlsx文件中,对于连续性指标给出P值,均值与标准差,对于分类变量(提前手动指定)提供清晰的数据分析(就是RC表的转置)。2、代码实现本文使用的statsmodels的anes96数据集,其中的分类变原创 2021-09-08 18:12:09 · 1034 阅读 · 0 评论 -
(10)数据分析-变量分析
1、前言 变量分析分为单变量分析,两变量分析,多变量分析。2、单变量分析 仅对一项数据进行分析,是最简单的变量分析。从取值上看有均值、中位数、分位数;从离散程度上看,指标有极差、四分位数、方差、标准差、协方差、变异系数;从分布上看,有偏度、峰度等。还要考虑极大值、极小值、频数和构成比;常用的展示方式有柱状图、直方图、箱线图、饼图、频率多边形图等。 以上这些概念在我之前的博客都能找到,咱不过多介绍。3、 两变量分析 两变量分析常见的为单个自变量X与因变量Y之间的关系分析,该分类专栏前面的方法原创 2021-09-08 16:53:38 · 3381 阅读 · 0 评论 -
(9)数据分析-相关性分析
1、运用场景 相关性分析是研究两个或两个以上随机变量间相关关系的统计方法。在数据分析中,它常用于分析连续型自变量X与连续型因变量Y之间的关系。在待分析特征较少时,可使用做图法分析,特征较多时,可使用皮尔森或者斯皮尔曼等工具分析,这这些只能判断线性关系,如果要判断非线性关系,则可将连续数组分组以后使用方差分析对比各组之间的差异。2、图形描述相关性2.1使用场景 待分析的特征较少 散点图是在两变量相关性分析分析时最常用的展示方法。如下图所示。本文使用Statsmodels 自带的 ccard数原创 2021-09-08 13:28:06 · 7395 阅读 · 0 评论 -
(8)数据分析-卡方检验
1、适用场景当自变量和因变量均为分类特征时,可以通过统计频次或者频率计算用特征X分组后不同组间差别是否具有统计学意义,以判断特征X的重要性,这种检验成为卡方检验。卡方检验也是非参数检验方法,对数据集的分布没有特殊要求,尤其适用于数据量小的情况。2、卡方检验实现流程适用Statsmodels统计工具中的anes96数据集,其中每个样本的 ‘edcu’分为七类,结果 ‘vote’分为两类。考虑样本的教育程度是否与投票结果相关。2.1将样本规范化适用pandas的crosstab方法对该数据做列联表统计原创 2021-09-08 12:45:54 · 1895 阅读 · 0 评论 -
(7)数据分析-秩和检验
1、前言 当数据不能满足正态性和方差齐次性条件,又相比较多足数据差异时,常常使用秩和检验(Rank Sum Test)。秩和检验是一种非参数检验方式。原创 2021-09-08 11:50:27 · 5773 阅读 · 0 评论 -
(6)数据分析-方差分析
1、前言方差分析又称为F检验,用于检验两个及两个以上样本均数的差异性,方差分析主要考虑各组之间的均数差别。如果多个样本不是全部来自同一个总体,那么观察之与总体的平均值之差的平方和成为变异。总变异可以分解为组间变异和组内变异。比如说,男性收入的方差为组内变异,男性收入与女性收入差异为组间变异。其统计量等于组间均方差除以组内均方差。F=MS组间MS组内F=\frac{MS_{组间}}{MS_{组内}}F=MS组内MS组间2、使用场景方差分析的前提也是数据要满足正态分布,且方差齐性。比如说研究学原创 2021-09-08 11:38:34 · 1995 阅读 · 0 评论 -
(5)数据分析-T检验
1、前言如果数据集只含有200,那么可以直接使用正态性检验,如果数据集有200000个,那么就不要直接使用正态检验了,只能从中随机抽取200个样本进行检验,这就称作T检验。概率论里面讲过,当样本个数n趋向于无穷时,t分布依概率收敛于正态分布。T检验要求数据符合正态分布,且正态齐性。常用的T检验有但样本T检验、独立样本T检验和配对样本T检验。2、单样本T检验单样本T检验用于检验数据是否来自一致均值的总体。from scipy import statsx = stats.norm.rvs(loc=95原创 2021-09-08 10:47:15 · 2334 阅读 · 0 评论 -
(4)数据分析-正态性检验与方差齐性检验
1、前言假设检验分为参数检验和非参数检验,当已知总体样本分布时,在根据样本数据对总体分布统计参数进行推断的情况下,使用参数检验如T检验,F检验;而在不知道总体样本分布的情况下使用非参数检验,如卡方检验,秩和检验等。因此,在使用检验方法之前需要先确定总体分布,其中最常用的是检验样本分布的正态性和方差齐性。2、正态性检验2.1 柯尔莫戈罗夫-斯米诺夫检验(K-S检验)用于检验样本是否服从某一分布的检验,这里暂时秩介绍对应的正态检验x = stats.norm.rvs(loc=0,scale=1,siz原创 2021-09-08 09:59:18 · 5626 阅读 · 0 评论 -
(3)评价模型-分析总和
1、定义首先介绍两个概念频数:同一变量值出现的次数频率:频数占所有出现的次数总和的比例为了进行频数分析,我们采用一组容量为10000的男学生身高,体重,成绩作为数据集进行定性和定量的分析,将此模型运用于类似的问题。创建数据集def genData(): heights = [] weights = [] grades = [] N = 10000 for i in range(N): while True: #原创 2021-09-07 21:43:53 · 386 阅读 · 1 评论 -
(2)评价算法-TOPSIS算法
文章目录1、TOPSIS算法2、TOPSIS算法流程2.1、极大型转化2.1.1 极大型2.1.2 中间型2.1.3 极小型2.1.4 区间型2.2 计算每项指标的权重2.3 正向矩阵标准化2.4 计算得分3、实例4、参考资料1、TOPSIS算法TOPSIS方法是基于数据对样本进行排序的一种方法,其基本思想是根据样本数据构造一个理想化的目标。主要找到每一列(指标)的最大值让它们构成一个向量Z+Z^+Z+和每一列(指标)的最小值构成一个向量Z−Z^-Z−。只要找到这两个向量,后面的事情就好办了。2、TO原创 2021-09-07 19:57:07 · 4171 阅读 · 1 评论 -
(1)评价算法—熵权法
1、什么是熵权法一种客观赋值法,确定样本每个指标的权重。涉及到信息量信息熵的个概念可以去这里查看1.1 优点熵权法能深刻反应指标的区分能力,确定较好的权重赋权更加客观,有理论依据,可信度也更加高算法简单,实践,不需要其他软件分析1.2 缺点无法考虑到指标与指标之间的横向影响对样本依赖性大,随建模样本变化,权重也会发生变化可能导致权重失真,最终结果无效。1.3 适用范围单单使用熵值法权重失真是经常发生的,要结合一定专家打分法才能发挥熵值法的优势。上层可能需要结合专家经验来构建,而原创 2021-09-06 16:53:38 · 24123 阅读 · 0 评论