使用的工具包
- numpy
- pandas
- statsmodels
- pylab
数据集介绍
本次使用的数据来源于http://www.ats.ucla.edu。
研究目标是辨别不同因素对研究生录取的影响。

数据的第一列是admit,表示是否被录取,有两个值,0和1,其中0表示没有被录取,1表示被录取,显然,这又是一个二分类问题。
数据的第二列是学生的gre(美国研究生入学考试)成绩。
数据的第三列是学生的gpa(学分绩点)。
最后一列是学生的学校的排名。
数据的初步统计结果

admit gre gpa prestige
count 400.000000 400.000000 400.000000 400.00000
mean 0.317500 587.700000 3.389900 2.48500
std 0.466087 115.516536 0.380567 0.94446
min 0.000000 220.000000 2.260000 1.00000
25% 0.000000 520.000000 3.130000 2.00000
50% 0.000000 580.000000 3.395000 2.00000
75% 1.000000 660.000000 3.670000 3.00000
max 1.000000 800.000000 4.000000 4.00000
admit 0.466087
gre 115.516536
gpa 0.380567
prestige 0.944460
dtype: float64
prestige 1 2 3 4
admit
0 28 97 93 55
1 33 54 28 12
虚拟变量并处理数据

# 将prestige设置为虚拟变量
dummy_ranks = pd.get_dummies
研究生录取预测:逻辑回归实战

本文使用Python的numpy、pandas和statsmodels等库,分析来自http://www.ats.ucla.edu的数据集,探讨GRE成绩、GPA和学校排名等因素如何影响研究生录取。通过逻辑回归模型,揭示了各因素对录取概率的影响。
最低0.47元/天 解锁文章
1142

被折叠的 条评论
为什么被折叠?



