机器学习——Python实现逻辑回归

最新推荐文章于 2024-09-09 11:53:18 发布

夜空骑士

最新推荐文章于 2024-09-09 11:53:18 发布

阅读量5.7k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： python 机器学习

本文链接：https://blog.youkuaiyun.com/NIeson2012/article/details/54310625

本文介绍了如何使用Python进行逻辑回归，适用于二分类问题。主要内容包括数据加载、统计摘要、虚拟变量处理、逻辑回归模型的训练与预测，以及结果解释。通过实例展示了逻辑回归在研究生录取预测中的应用，探讨了学校声望对录取概率的影响。

本文基于yhat上Logistic Regression in Python，作了中文翻译，并相应补充了一些内容。本文并不研究逻辑回归具体算法实现，而是使用了一些算法库，旨在帮助需要用Python来做逻辑回归的训练和预测的读者快速上手。

逻辑回归是一项可用于预测二分类结果(binary outcome)的统计技术，广泛应用于金融、医学、犯罪学和其他社会科学中。逻辑回归使用简单且非常有效，你可以在许多机器学习、应用统计的书中的前几章中找到个关于逻辑回归的介绍。逻辑回归在许多统计课程中都会用到。

我们不难找到使用R语言的高质量的逻辑回归实例，如UCLA的教程R Data Analysis Examples: Logit Regression就是一个很好的资源。Python是机器学习领域最流行的语言之一，并且已有许多Python的资源涵盖了支持向量积和文本分类等话题，但少有关于逻辑回归的资料。

本文介绍了如何使用Python来完成逻辑回归。

简介

示例代码中使用了一些算法包，请确保在运行这些代码前，你的电脑已经安装了如下包:

numpy: Python的语言扩展，定义了数字的数组和矩阵
pandas: 直接处理和操作数据的主要package
statsmodels: 统计和计量经济学的package，包含了用于参数评估和统计测试的实用工具
pylab: 用于生成统计图

可参考 Windows安装Python机器学习包或 Ubuntu/CentOS安装Python机器学习包来搭建所需要的环境。

逻辑回归的实例

在此使用与Logit Regression in R相同的数据集来研究Python中的逻辑回归，目的是要辨别不同的因素对研究生录取的影响。

数据集中的前三列可作为预测变量(predictor variables)：

gpa
gre分数
rank表示本科生母校的声望

第四列admit则是二分类目标变量(binary target variable)，它表明考生最终是否被录用。

加载数据

使用 pandas.read_csv加载数据，这样我们就有了可用于探索数据的DataFrame。


  
   
   
    
    import pandas as pd
    
    import statsmodels.api as sm
    
    import pylab as pl
    
    import numpy as np
    
     
    
    # 加载数据
    
    # 备用地址: http://cdn.powerxing.com/files/lr-binary.csv
    
    df = pd.read_csv("http://www.ats.ucla.edu/stat/data/binary.csv")
    
     
    
    # 浏览数据集
    
    print df.head()
    
    #    admit  gre   gpa  rank
    
    # 0      0  380  3.61     3
    
    # 1      1  660  3.67     3
    
    # 2      1  800  4.00     1
    
    # 3      1  640  3.19     4
    
    # 4      0  520  2.93     4
    
     
    
    # 重命名'rank'列，因为dataframe中有个方法名也为'rank'
    
    df.columns = ["admit", "gre", "gpa", "prestige"]
    
    print df.columns
    
    # array([admit, gre, gpa, prestige], dtype=object)

注意到有一列属性名为rank，但因为rank也是pandas dataframe中一个方法的名字，因此需要将该列重命名为”prestige”.

统计摘要(Summary Statistics) 以及查看数据

现在我们就将需要的数据正确载入到Python中了，现在来看下数据。我们可以使用pandas的函数describe来给出数据的摘要–describe与R语言中的summay类似。这里也有一个用于计算标准差的函数std，但在describe中已包括了计算标准差。

我特别喜欢pandas的pivot_table/crosstab聚合功能。crosstab可方便的实现多维频率表(frequency tables)(有点像R语言中的table)。你可以用它来查看不同数据所占的比例。


  
   
   
    
    # summarize the data
    
    print df.describe()
    
    #             admit         gre         gpa   prestige
    
    # count  400.000000  400.000000  400.000000  400.00000
    
    # mean     0.317500  587.700000    3.389900    2.48500
    
    # std      0.466087  115.516536    0.380567    0.94446
    
    # min      0.000000  220.000000    2.260000    1.00000
    
    # 25%      0.000000  520.000000    3.130000    2.00000
    
    # 50%      0.000000  580.000000    3.395000    2.00000
    
    # 75%      1.000000  660.000000    3.670000    3.00000
    
    # max      1.000000  800.000000    4.000000    4.00000
    
     
    
    # 查看每一列的标准差
    
    print df.std()
    
    # admit      0.466087
    
    # gre      115.516536
    
    # gpa        0.380567
    
    # prestige   0.944460
    
     
    
    # 频率表，表示prestige与admin的值相应的数量关系
    
    print pd.crosstab(df['admit'], df['prestige'], rownames=['admit'])
    
    # prestige   1   2   3   4
    
    # admit                   
    
    # 0         28  97  93  55
    
    # 1         33  54  28  12
    
     
    
    # plot all of the columns
    
    df.hist()
    
    pl.show()