这是学习的第二个部分,第一部分中复习了or学习了一些基础知识,这里进入到第二部分的建模应用篇,还有一个好消息,数模论文被推到省赛区组委会,国奖有希望。下面正式进入学习部分。
分类与预测是机器学习有监督学习任务的代表,要求估计预测值,是“回归任务”,要去判断因变量属于哪个类别时,是“分类任务”。
1.回归分析
1.1线性回归
线性回归,使用矩条件,计量经济学中有系统的学过,需要一定的线性代数基础。

上面的思想必须要知道,实现的时候可以用sklearn库实现,不需要自己再写重复的轮子,下面使用代码实现:
#波士顿房价预测问题
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_boston
from sklearn.linear_model import LinearRegression
boston=load_boston()
x=boston.data[:,np.newaxis,5]
y=boston.target
lm=LinearRegression()
lm.fit(x,y)
print(lm.score(x,y))#输出R-squre
plt.scatter(x,y,color="green")
plt.plot(x,lm.predict(x),color="blue",linewidth=3)
plt.show()
1.2逻辑回归
逻辑回归是对数几率回归,属于广义线性模型,函数图像为S型,计量经济学同样教授过,一般的因变量取值只有0或1,Logistic函数,确定权重的时候用的极大似然估计。

逻辑回归代码实现:
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.cross_validation import train_test_split
data=pd.read_csv('LogisticRegression.csv',encoding='utf-8')
#类型变量进行度热编码,分离成多个虚拟变量,划分等级
data_dums=pd.get_dummies(data,prefix='rank',columns=['rank'],drop_first=True)
x_train,x_test,y_train,y_test=train_test_split(data_dums.ix[:,1:],data_dums.ix[:,0],test_size=.1,random_state=520)
lr=LogisticRegression()
lr.fit(x_train,y_train)
lr.score(x_test,y_test)
2.决策树
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
data=pd.DataFrame()
data=pd.read_csv("titanic_data.csv")
data.drop(['PassengerId'],axis=1,inplace=True)
data.loc[data['Sex']=='male','Sex']=1
data.loc[data["Sex"]=='female',"Sex"]=0
data.fillna(int(data.Age.mean()),inplace=True)
dtc=DecisionTreeClassifier(criterion="entropy")
dtc.fit(data.iloc[:,1:3],data.iloc[:,0])
dtc.score(data.iloc[:,1:3],data.iloc[:,0])
3.神经网络模型
这部分,有点难。。。以后再学,以后学习tensorflow等,具体自己以后推导公式
4.KNN算法
k-近邻分类。分类属于有监督学习,而聚类属于无监督学习。
主要思想:随机一个点,寻找离这个点最近的K个点。在这K个点中,可能会有a,b,c三种类别。若a的出现频率最高,则这个点属于a类
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_iris
iris=load_iris()
x=iris.data[:,:2]
y=iris.target
cmap_light=ListedColormap(["#FFAAAA","#AAFFAA","#AAAAFF"])
cmap_bold=ListedColormap(["#FF0000","#00FF00","#0000FF"])
clf=KNeighborsClassifier(n_neighbors=15)
clf.fit(x,y)
#画出决策边界,原理就是把不同的区域,画出很多点,并且颜色不同
x_min,x_max=min(x[:,0])-1,max(x[:,0])+1
y_min,y_max=min(x[:,1])-1,max(x[:,1])+1
#生成网格点坐标矩阵
xx,yy=np.meshgrid(np.arange(x_min,x_max,0.02),np.arange(y_min,y_max,0.02))
#np的ravel()方法实现的是降维处理,将多维矩阵将为一维,
# 如X=np.array([[1,2,3],[4,5,6]])
#X.ravel()就是[1,2,3,4,5,6],但是这个矩阵是原来矩阵的一个视图,改变这个矩阵会改变原来的映射矩阵(初始矩阵)
z=clf.predict(np.c_[xx.ravel(),yy.ravel()]).reshape(xx.shape)
plt.figure()
plt.pcolormesh(xx,yy,z,cmap=cmap_light)
plt.scatter(x[:,0],x[:,1],c=y,cmap=cmap_bold)
#设置坐标的最大最小值
plt.xlim(xx.min(),xx.max())
plt.ylim(yy.min(),yy.max())
plt.show()
5.朴素贝叶斯分类算法,适用于垃圾邮件分类
- 普通的,贝叶斯公式,极大似然估计,离散数据
- 高斯朴素贝叶斯,处理连续数据
- 多项式朴素贝叶斯,用来处理多分类问题
from sklearn import datasets
from sklearn.naive_bayes import GaussianNB
iris=datasets.load_iris()
gnb=GaussianNB()
gnb.fit(iris.data,iris.target)
y_pre=gnb.predict(iris.data)
iris.data.shape[0]
(iris.target!=y_pre).sum()
#150个,6个预测失败,成功率很高