DataWhale集成学习【上】：（一）机器学习的三大主要任务

最新推荐文章于 2024-06-19 22:10:34 发布

原创最新推荐文章于 2024-06-19 22:10:34 发布 · 537 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #python

本文介绍了机器学习中的三大主要任务：回归、分类和无监督学习，并通过Python的sklearn库中的波士顿房价数据集和鸢尾花数据集进行演示。重点讲解了有监督学习中的回归和分类问题。

这篇博文是DataWhale集成学习【上】的第一部分，主要是介绍机器学习的三大主要任务
参考资料为DataWhale开源项目：机器学习集成学习与模型融合(基于python)和scikit-learn官网
学习交流欢迎联系 obito0401@163.com

任务一：回归

回归分析（regression analysis）指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，是机器学习中有监督学习的一个重要组成部分，在预测模型中多有应用
回归分析按照涉及的变量的多少，分为一元回归和多元回归分析；按照因变量的多少，可分为简单回归分析和多重回归分析；按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析

【例】下面以Python的 sklearn 库中内置的波士顿房价数据集 boston 做一个演示

自变量：data，特征x的矩阵（ndarray）
因变量：target，因变量y的向量（ndarray）
特征名称：target_names，自变量x的含义（ndarray）

import pandas as pd
from sklearn import datasets
import matplotlib.pyplot as plt
import seaborn as sns

# 加载原始数据集并做进一步处理
boston = datasets.load_boston() # 返回一个包含data、target和feature_names的字典
x = boston.data # 划分出自变量
y = boston.target # 划分出因变量
features = boston.feature_names # 划分出特征名
boston_data = pd.DataFrame(x,columns=features) # 自变量加上特征名
boston_data["Price"] = y # 添加因变量列
boston_data.head() # 展示所构造的最终数据集的头部信息

在这里插入图片描述

# 画出自变量和因变量的散点图，观察其关系
sns.scatterplot(boston_data['NOX'],boston_data['Price'],color="r",alpha=0.6)
plt.title("Price与NOX散点图",fontproperties = 'SimHei',fontsize = 14)
plt.show()

在这里插入图片描述

任务二：分类

分类问题是数据挖掘处理的一个重要组成部分，在机器学习领域，分类问题通常被认为属于有监督学习，也就是说，分类问题的目标是根据已知样本的某些特征，判断一个新的样本属于哪种已知的样本类
根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)

【例】下面以Python的 sklearn 库中内置的鸢尾花数据集 iris 做一个演示

特征：data，特征x的矩阵（ndarray）
类：target，类y的向量（ndarray）
特征名称：target_names，特征x的含义（ndarray）

import pandas as pd
from sklearn import datasets
import matplotlib as plt

# 加载原始数据集并做进一步处理
iris = datasets.load_iris()
x = iris.data
y = iris.target
features = iris.feature_names
iris_data = pd.DataFrame(x,columns=features)
iris_data['target'] = y
iris_data.head()

在这里插入图片描述

# 可视化数据分布特征
marker = ['s','x','o'] # 符号标记
for index,c in enumerate(np.unique(y)):
    plt.scatter(x=iris_data.loc[y==c,"sepal length (cm)"],y=iris_data.loc[y==c,"sepal width (cm)"],
                alpha=0.8,label=c,marker=marker[c])
plt.xlabel("sepal length (cm)")
plt.ylabel("sepal width (cm)")
plt.legend()
plt.show()