“达观杯”文本智能处理挑战赛之二
逻辑回归(LR)
逻辑回归:Logistic regression,名义上带有“回归”字样,可能会被以为是预测方法,其实质却是一种常用的分类模型,主要被用于二分类问题,它将特征空间映射成一种可能性,在LR中,y是一个定性变量{0,1},LR方法主要用于研究某些事发生的概率。它足够简单却又足够有效,但是,它对数据和场景的适应能力有局限性,容易欠拟合。
此处的具体实现
from sklearn.linear_model import LogisticRegression
LR=LogisticRegression(C=1, penalty='l2', tol=1e-6)
LR.fit(X_train, Y_train)
Acc_LR = LR.score(X_test,Y_test)
#此处结果输出
Out[28]: 0.7621887628731586
支持向量机(SVM)
支持向量机:support vector machine,简称SVM,是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。(SVM)
此处的具体实现
from sklearn.metrics import accuracy_score
from sklearn.svm import SVC
clf = SVC(kernel='linear')
clf.fit(X_train, Y_train)
predict_labels = clf.predict(X_test)
Acc_svm = accuracy_score(Y_test, predict_labels)
参考文献
[1]: https://blog.youkuaiyun.com/lsc989818/article/details/79465260
[2]: https://www.cnblogs.com/lianyingteng/p/7701801.html
[3]: https://www.cnblogs.com/mod109/p/9349710.html
[4]: 《机器学习》——周志华
[5]: https://www.cnblogs.com/zy230530/p/6901277.html
[6]: https://www.cnblogs.com/demo-deng/p/10154222.html
[7]: https://www.jianshu.com/p/f4c7bc6c4ce2
[8]: 《统计学习方法》——李航