西瓜书读书笔记之绪论

1.1 引言

定义:

  • Arthur Samuel:不显式编程地赋予计算机能力的研究领域。
  • Mitchell:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,就说关于T和P,该程序对E进行了学习。
  • 周志华:机器学习的主要内容:关于在计算机上从数据中产生“模型”的算法,即“学习算法”。

1.2 基本术语

数据:

分类:

泛化能力:学得模型适用于新样本的能力。

学习器:学习算法在给定数据和参数空间上的实例化。

1.3 假设空间

  • 广义的归纳学习相当于从样例中学习,狭义的归纳学习则要求从训练数据中学得概念,亦称概念学习或概念形成。
  • 学习过程可以看作在所有假设组成的空间中进行搜索的过程,目标是找到与训练集“匹配”的假设。假设的表示一旦确定,假设空间及其规模大小就确定了。
  • 由于样本训练集有限,可能有多个假设与训练集一致,即存在一个训练集属于的假设集合,称为“版本空间”

1.4 归纳偏好

  • 定义:学习过程中对某种类型假设的偏好,称为“归纳偏好”。
  • 版本空间启发我们,任何一个学习算法必有归纳偏好,否则它将被看似“等效”的假设迷惑,无法产生确定的学习效果。
  • 可以将其看作进行假设选择的启发式或价值观。  
  1. 奥卡姆剃刀:若有多个假设与观察一致,选择最简单的那个。问题在于简单究竟是主观评价还是客观存在。
  2. 多释原则:保留与经验观察一致的所有假设。这与集成学习吻合。
  •  NFL定理表明,归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。
### 西瓜第十章学习笔记:数据挖掘实战 #### 10.1 数据预处理 在进行任何数据分析之前,数据预处理是一个必不可少的过程。这一步骤通常包括缺失值处理、异常值检测以及特征缩放等操作[^1]。 ```python import pandas as pd from sklearn.preprocessing import StandardScaler # 加载数据集 data = pd.read_csv('watermelon_data.csv') # 处理缺失值 data.fillna(data.mean(), inplace=True) # 特征缩放 scaler = StandardScaler() scaled_features = scaler.fit_transform(data.drop(columns=['label'])) ``` #### 10.2 探索性数据分析 (EDA) 通过可视化工具和技术来理解数据分布及其潜在模式非常重要。这部分工作有助于发现隐藏于数据中的规律并指导后续建模过程。 ```python import seaborn as sns import matplotlib.pyplot as plt # 绘制箱线图查看各属性间的差异情况 plt.figure(figsize=(8,6)) sns.boxplot(data=data.iloc[:,:-1]) plt.show() # 计算相关系数矩阵 corr_matrix = data.corr().abs() print(corr_matrix) ``` #### 10.3 构建分类模型 基于前两步的工作成果,在本节中将尝试构建多个不同的机器学习模型来进行预测分析,并比较它们的表现效果以选出最优方案。 ```python from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTreeClassifier from sklearn.metrics import accuracy_score X_train, X_test, y_train, y_test = train_test_split(scaled_features, data['label'], test_size=0.2, random_state=42) clf = DecisionTreeClassifier(random_state=42).fit(X_train,y_train) predictions = clf.predict(X_test) accuracy = accuracy_score(y_test,predictions)*100 print(f'Accuracy: {round(accuracy,2)}%') ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值