西瓜书读书笔记(一)绪论

机器学习定义:假设P评估计算机在任务T上的性能,若程序利用经验E在T中的任务上获得了性能改善,则关于P和T,程序对E进行了学习。

基本术语:

属性空间、样本空间、输入空间:属性张成的空间。每个样本可在该空间找到自己的坐标,对于一组坐标,称为特征向量。

属性数称为样本的“维数”。

训练样本组成的集合称为“训练集”。

学得模型对应了关于数据的某种潜在的规律称为“假设”,潜在规律称为“真相or真实”

拥有标记的示例称为“样例”

标记的集合称为“标记空间”or“输出空间

如果预测的是离散值,则任务为”分类”;如果预测的是连续值,则任务为“回归”

“二分类”任务中一类为“正类”,一类为“反类”

学得模型后,使用其进行预测的过程称为“测试”,被预测的样本称为“测试样本”

训练集有标记信息则为“监督学习”,没有则为“非监督学习”

学得模型适用于新样本的能力称为“泛化”

假设空间:

所有假设组成的空间即假设空间,假设空间>训练集

“版本空间”即与训练集一致的“假设集合”

归纳偏好:

所有“问题”出线的机会相同、或所有问题同等重要的情况下,总误差与学习算法无关。所以算法的相对优劣,必须要针对具体的学习问题

### 西瓜第十章学习笔记据挖掘实战 #### 10.1 据预处理 在进行任何据分析之前,据预处理是个必不可少的过程。这步骤通常包括缺失值处理、异常值检测以及特征缩放等操作[^1]。 ```python import pandas as pd from sklearn.preprocessing import StandardScaler # 加载据集 data = pd.read_csv('watermelon_data.csv') # 处理缺失值 data.fillna(data.mean(), inplace=True) # 特征缩放 scaler = StandardScaler() scaled_features = scaler.fit_transform(data.drop(columns=['label'])) ``` #### 10.2 探索性据分析 (EDA) 通过可视化工具和技术来理解据分布及其潜在模式非常重要。这部分工作有助于发现隐藏于据中的规律并指导后续建模过程。 ```python import seaborn as sns import matplotlib.pyplot as plt # 绘制箱线图查看各属性间的差异情况 plt.figure(figsize=(8,6)) sns.boxplot(data=data.iloc[:,:-1]) plt.show() # 计算相关系矩阵 corr_matrix = data.corr().abs() print(corr_matrix) ``` #### 10.3 构建分类模型 基于前两步的工作成果,在本节中将尝试构建多个不同的机器学习模型来进行预测分析,并比较它们的表现效果以选出最优方案。 ```python from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTreeClassifier from sklearn.metrics import accuracy_score X_train, X_test, y_train, y_test = train_test_split(scaled_features, data['label'], test_size=0.2, random_state=42) clf = DecisionTreeClassifier(random_state=42).fit(X_train,y_train) predictions = clf.predict(X_test) accuracy = accuracy_score(y_test,predictions)*100 print(f'Accuracy: {round(accuracy,2)}%') ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值