单变量线性回归 / Batch gradient decent(人口和利润数据)
开发环境
Anaconda 4.9.2 / Python 3.6.12
任务
假如你是餐馆老板,已知若干城市中人口和利润的数据(ex1data1.txt),用线性回归方法计算该去哪个城市发展。
程序分解
导入原始数据
代码
import pandas as pd
import seaborn as sns
sns.set(context="notebook", style="whitegrid", palette="dark")
import matplotlib.pyplot as plt
import tensorflow as tf
import numpy as np
data = pd.read_csv('E:\Ana3\linear\ex1data1.txt', names=['population', 'profit'])#读取ex1data1.txt中的数据
print(data.head())#看前五行
sns.lmplot('population', 'profit', data, size=6, fit_reg=False)
plt.show()#绘制人口-利润散点图
结果
计算代价函数
代码
def computeCost(X, y, theta):
inner = np.power(((X * theta.T) - y), 2)
return np.sum(inner) / (2 * len(X))#定义代价函数J
data.insert(0, 'Ones', 1)
cols = data.shape[1]#在训练集中添加一列,值为1,以便使用向量化的方案计算代价和梯度
X = data.iloc[:,0:cols-1]#X是所有行,去掉最后一列
y = data.iloc[:,cols-1:cols]#y是所有行,最后一列
print(X.head())
print(y.head())#head()是观察前5行
X = np.matrix(X.values)
y = np.matrix(y.values)#代价函数应是numpy矩阵,所以需要转换X和Y再使用
theta = np.matrix(np.array([0,0]))#初始化theta