问:我们将建立一个逻辑回归模型来预测一个学生是否被大学录取。假设你是一个大学系的管理员,你想根据两次考试的结果来决定每个申请人的录取机会。你有以前的申请人的历史数据,你可以用它作为逻辑回归的训练集。对于每一个培训例子,你有两个考试的申请人的分数和录取决定。为了做到这一点,我们将建立一个分类模型,根据考试成绩估计入学概率。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
#导入数据
import os
os.chdir('C:/Users/Liu/Desktop')
path = 'LogiReg_data.txt' #我是把数据放到了桌面上
pdData = pd.read_csv(path, header=None, names=['Exam 1', 'Exam 2', 'Admitted'])
做题之前先进行数据可视化分析,先画个图看一下
positive = pdData[pdData['Admitted'] == 1] # returns the subset of rows such Admitted = 1, i.e. the set of *positive* examples
negative = pdData[pdData['Admitted'] == 0] # returns the subset of rows such Admitted = 0, i.e. the set of *negative* examples
fig, ax = plt.subplots(figsize=(10,5))
ax.scatter(positive['Exam 1'], positive['Exam 2'], s=30, c='b', marker='o', label='Admitted')
ax.scatter(negative['Exam 1'], negative['Exam 2'], s=30, c='r', marker='x', label='Not Admitted')
ax.legend()
ax.set_xlabel('Exam 1 Score')
ax.set_ylabel('Exam 2 Score')
输出结果:
目标:建立分类器
(求解出三个参数 θ 0 \theta0 θ0 、 θ 1 \theta1 θ1 、 θ 2 \theta2 θ2,
分别表示为偏置项,第一个考试成绩,第二个考试成绩)
设定阈值,根据阈值判断录取结果
# 要完成的模块
sigmoid : 映射到概率的函数
•model : 返回预测结果值
•cost : 根据参数计算损失,对数似然函数的负值的平均值,用于评测算法,越小越好
•gradient : 计算每个参数的梯度方向
•descent : 进行参数更新
•accuracy: 计算精度'''
将数值运算转换成矩阵运算,需要添加一列x0,值全部为1,与 θ 0 \theta0 θ0 进行矩阵组合运算
pdData.insert(0,'Ones',1)
#如果多次执行这项操作可能报错:
# 显示已经存在,说明你已经插入过了,如果想要多次插入,可执行pdData.