本系列目的在于总结每一个分类器的特点(优点、缺点、使用数据类型、使用时的注意事项等)。相关代码自己搜。
python:建议使用2.7
python常用函数库:NumPy、scikit-learn等
python集成环境:anaconda
毕业季,玩了20天。
使用时注意事项:
0、线性回归和非线性回归:线性回归意味着可以将输人项分别乘以一些常量,再将结果加起来得到输出。非线性回归不认同上面的做法,比如认为输出可能是输人的乘积。
1、如何判断模型的好坏:使用误差函数、使用相关系数(NumPy库提供了相关系数的计算方法:可以通过命令corrcoef(yEstimate,yActual)来计算预测值和真实值的相关性)。
2、局部加权线性回归( Locally Weighted Linear Regression, LWLR ),与KNN类似,需要选择局部的数据子集,另外使用类似于SVM中的核(高斯核)来对附近的点赋予更高的权重。高斯核:w=exp( |xi-x| / (-2k^2))。
3、回归系数:这些系数是经过不同程度的缩减得到的。首先看第1行,第4项比第2项的系数大5倍 ,比第1 项大57倍。这样看来,如果只能选择一个特征来做预测的话,我们应该选择第4个特征,也就是 原始价格。如果可以选择2个特征的话,应该选择第4个和第2个特征。这种分析方法使得我们可以挖掘大量数据的内在规律。在仅有4个特征时,该方法的效果也 许并不明显;但如果有100个以上的特征,该方法就会变得十分有效:它可以指出哪些特征是关键的,而哪些特征是不重要的。(这真的有用吗???懂的人给回答一下)