信息论与机器学习及线性逻辑回归相关知识
1. 使用Scikit - Learn生成决策树
Scikit - learn没有实现ID3算法,而是通过 DecisionTreeClassifier 提供了CART算法的一个版本(Breiman等人,1984)。CART算法是一种类似的算法,输出的是二叉决策树。
以下是使用熵准则来拟合决策树模型的代码:
classifier = tree.DecisionTreeClassifier(criterion='entropy')
classifier.fit(X, y)
模型训练完成后,可将其应用于新的观测数据。下面的代码将模型应用于训练集:
y_predicted = classifier.predict(X)
预测结果如下:
array(['no', 'no', 'yes', 'yes', 'yes', 'no', 'yes', 'no',
'yes', 'yes', 'yes', 'yes', 'yes', 'no'], dtype='<U3')
2. 模型评估
在之前的实验中,我们在同一数据集上进行模型的训练和测试,这并不是一个好的做法。因为一个仅仅记住数据的模型也能达到完美的准确率。为了使模型能够对训练集之外的新数据
超级会员免费看
订阅专栏 解锁全文
17万+

被折叠的 条评论
为什么被折叠?



