1.仿照的例子就是加利福尼亚的房价预测的问题,作者的源码是直接从sklearn.datasets中调用 fetch_california_housing 函数,可以直接将房价的数据集下载下来,通过运行 tar -zxvf cal_housing.tgz -C 指定目录下。之后仿照sklearn 的写法,通过np.loadtxt('cal_housing.data', delimiter=',')对数据进行加载,房价数据与数据之间用逗号分隔开 。之后就是选取数据的某些行或者列的问题,其中最值得注意的就是在选取特征和target后, 组成了一个近似字典的数据形式,通过调用sklearn.utils 模块的Bunch。
2. 在作者代码中,在输入数据中加入了一个常量偏置1, 通过一个内嵌的函数np.c_ ,实现的功能就是将两个矩阵按照x轴进行拼接,例如作者提供的例子就是: np.c_[np.array([1,2,3]), np.array([4,5,6])],输出就是array([[1,4],[2,5],[3,6]])
3. 线性回归的正则化的参数theta求解= (X^T * X)^(-1) * X^T * y