
机器学习
重点在代码实现上
路由跳变
这个作者很懒,什么都没留下…
展开
-
chapter7 Ensemble Learning and Random Forests(集成学习和随机森林)
假设你去随机问很多人一个很复杂的问题,然后把它们的答案合并起来。通常情况下你会发现这个合并的答案比一个专家的答案要好。这就叫做群体智慧。同样的,如果你合并了一组分类器的预测(像分类或者回归),你也会得到一个比单一分类器更好的预测结果。这一组分类器就叫做集成;因此,这个技术就叫做集成学习,一个集成学习算法就叫做集成方法。例如,你可以训练一组决策树分类器,每一个都在一个随机的训练集上。为了去做预测...原创 2020-06-18 15:15:27 · 489 阅读 · 0 评论 -
chapter6 Decision Trees(决策树)
和支持向量机一样, 决策树是一种多功能机器学习算法, 即可以执行分类任务也可以执行回归任务, 甚至包括多输出(multioutput)任务.它是一种功能很强大的算法,可以对很复杂的数据集进行拟合。例如,在第二章中我们对加利福尼亚住房数据集使用决策树回归模型进行训练,就很好的拟合了数据集(实际上是过拟合)。决策树也是随机森林的基本组成部分(见第7章),而随机森林是当今最强大的机器学习算法之一...原创 2020-04-19 00:21:14 · 576 阅读 · 0 评论 -
chapter5 Support Vector Machines (支持向量机)
支持向量机(SVM)是个非常强大并且有多种功能的机器学习模型,能够做线性或者非线性的分类,回归,甚至异常值检测。机器学习领域中最为流行的模型之一,是任何学习机器学习的人必备的工具。SVM 特别适合应用于复杂但中小规模数据集的分类问题。本章节将阐述支持向量机的核心概念,怎么使用这个强大的模型,以及它是如何工作的。设置from __future__ import division,pri...原创 2020-04-16 22:44:20 · 464 阅读 · 0 评论 -
chapter4 training_linear_models
设置首先,确保这个笔记本在python 2和python 3中都能正常工作,导入一些公共模块,确保MatplotLib内联绘制图形,并准备一个函数来保存这些图形:from __future__ import division,print_function,unicode_iterals import numpy as npnp.random.seed(42) %matplotl...原创 2020-03-24 23:55:37 · 449 阅读 · 0 评论 -
Chapter 3 Classification (垃圾邮件处理)
4.Spam 分类器总体目标:创建一个垃圾邮件过滤系统基本步骤:(1)从http://spamassassin.apache.org/old/publiccorpus/网址下载开源数据,包括垃圾邮件和普通邮件(2)解压数据集,观察并熟悉数据格式(3)将数据集分成训练集和测试集(4)制作一个针对该数据集的数据预处理管道,将每一封邮件转换成特征向量的形式(5)添加超参数(6)训练...原创 2020-03-21 18:43:27 · 3071 阅读 · 0 评论 -
Chapter 3 Classification (mnist数据集)
设置1获取数据from sklearn.datasets import fetch_mldatamnist = fetch_mldata('MNIST original')minst训练一个而分类对性能的评估1.使用交叉验证测量准确性2.混淆矩阵(1)准确率与召回率之间的折衷(2)ROC曲线多类分类误差分析多标签分类多输出分类...原创 2020-03-21 14:20:31 · 1458 阅读 · 0 评论 -
Chapter 3 Classification (Titanic数据集)
3.处理Titanic数据集其目的是根据乘客的年龄、性别、乘客阶层、乘坐地点等属性来预测乘客是否幸存。首先,登录Kaggle,去Titanic challenge网站下载train.csv和test.csv。保存到datasets/titanic目录。主要涉及到的内容有:数据处理(对空白数据进行填充:Imputer)、自定义转换器、pipeline的编写以及采用以及SVCRandomF...原创 2020-03-21 14:19:23 · 458 阅读 · 0 评论 -
character2 End-to-End Machine Learning Project (median_house_value)
Setupfrom __feature__import division,print_function,unicode_literalsimport numpy as npnp.random.seed(42)%matplotlib inlineimport matplotlibimport matplotlib.pyplot as pltplt.rcParams['axes....原创 2020-03-13 18:26:15 · 702 阅读 · 0 评论 -
Chapter 1 The Machine Learning landscape (GDP per capita 与Life satification)
设置from __feature__import division,print_function,unicode_literalsimport numpy as npnp.random.seed(42)%matplotlib inlineimport matplotlibimport matplotlib.pyplot as pltplt.rcParams['axes.lab...原创 2020-03-14 15:24:59 · 768 阅读 · 0 评论