- 博客(14)
- 收藏
- 关注
原创 《机器学习》第十一章 特征选择与稀疏学习 总结
子集搜索和评价给定属性集,有的属性可能很关键,而有的属性可能对当前学习任务没有什么作用。我们将属性称为特征(feature),对当前学习任务有用的属性成为相关特征(relevant feature),没什么用的属性成为无关特征(irrelevant feature)。从给定特征集合中选择相关特征子集的过程成为特征选择(feature selection)。然而,欲从初始的特征集合中选取一个包含了所有重要信息的特征子集是不可能的,这样会遇到组合爆炸,可行的方法是先产生一个候选子集,再对其进行评价,基于评价结
2020-06-21 17:52:22
533
原创 《机器学习》第十章 降维与度量学习 总结
k近邻学习(k-Nearest Neighbor)一种常用的监督学习方法,给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个“邻居”的信息来进行预测。对于分类任务常采用投票法,回归任务常采用平均法。另外,k近邻学习没有显示的学习过程懒惰学习(lazy learning):在训练阶段仅仅是把样本保存起来,训练时间开销为零,待收到测试样本后再进行处理,k紧邻学习就是懒惰学习的一个特例急切学习(eager learning):在训练阶段就对样本进行学习处理的方法,例如决策树算
2020-06-20 15:18:32
748
原创 《机器学习》第八章 集成学习 总结
个体与集成集成学习(ensemble learning):通过构建并结合多个学习器来完成学习任务,也叫做多分类器系统(multi-classifier system)和基于委员会的学习(committee-based learning)。其一般结构是先产生一组个体学习器(individual learner),再用某种策略将它们结合起来同质(homogeneous)集成:集成中只包含同种类型的个体学习器,这些个体学习器称为基学习器(base learner),相应的学习算法称为基学习算法(base le
2020-06-10 16:59:09
541
原创 第二周学习笔记
看了三章的西瓜书,第七章还没来得及写笔记。这些个笔记就是当作复习了,写的很简略,很多细节特别是公式都没写出来,权当自娱自乐帮助自己再过一遍书本的概念。另外,除了西瓜书,David Silver的RL课程我也把动态规划看了。这周重新捡起python,试着写了写BP算法。我寻思好歹以前用python写过结构力学算桁架受力的小程序,编个神经网络的基础算法应该能顺利吧,然而事实打脸了。。。自己闷头写了半天,程序却老出岔子。我的思路是先把一个西瓜的输出值弄出来,再用循环结构生成17个西瓜的输出,最后再套一个循环条件
2020-06-01 22:54:52
170
原创 《机器学习》第六章 支持向量机 总结
间隔与支持向量给定训练样本集D(x_i,y_i), y_i为二分类问题,取值0或1 。分类学习最基本思想是在样本空间中找到一个划分超平面将不同类别样本分开,如何寻找这个划分超平面,使得其对样本局部扰动的容忍性最好,是一个重要的问题...
2020-06-01 22:29:04
627
原创 误差逆传播(BP)算法
采用《机器学习》西瓜训练集3.0作为训练数据。使用xlrd包从excel输入西瓜训练集先是根据西瓜书54页,将离散属性连续化。然后初始化两组权值和阈值,取零到一之间随机数隐层神经元个数设置为输入层+3个,学习率设置为0.3import numpy as npimport xlrd as xlimport randomimport mathdata=xl.open_workbook('watermelon.xlsx')table = data.sheet_by
2020-05-31 19:45:46
812
原创 《机器学习》 第五章神经网络 总结
神经元模型神经网络(neural networks):具有适应性的简单单元组成的广泛并行互联的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应神经元(neuron)模型:上述定义中的”简单单元“,每个神经元与其他神经元相连,当它”兴奋“时,会向相连的神经元发送化学物质,从而改变这些神经元的电位,若这些神经元电位超过了一个阈值(threshold),那么它也会被激活,图5.1激活函数(activation function):由神经元的输入产生一个值从而与阈值相比较,最理想的为阶跃函数,
2020-05-31 17:11:51
974
原创 第一周学习总结
第一周事情略多,机器学习勉强看完了四章,David Silver的强化学习也才看了十课中的两课,算是初步了解了MDP。其中西瓜书第二第三章涉及特别多的数学公式推导,我一个个琢磨了半天但还是不少自己没推出来,所幸发现了一本南瓜书,书上对西瓜书的推导进行了不少补充。西瓜书学到第四章决策树终于涉及了一点实际应用,这一章比前几章看的顺利多了,希望以后也能保持状态继续啃吧。目前计划6月底把西瓜书和David Silver的强化学习看完,期间看看《机器学习实战》找点代码敲敲,7月应该能上github上找点小项目试一
2020-05-24 21:57:40
207
原创 《机器学习》 第四章决策树 总结
基本流程决策树(decision tree):基于树的结构进行决策,从给定训练集学得一个树形模型对新示例进行分类。通常,一颗决策树包括一个根节点,若干内部节点和若干叶子节点。叶节点对应决策结果,其他节点对应一个属性测试,根节点包含样本全集。其流程遵循简单直观的”分而治之“(divide-and-conquer)策略划分选择我们希望决策树的分支节点包含的样本尽可能属于同一类别,即节点的纯度(purity)越来越高信息熵(information entropy):度量样本纯度最常用的一个指标,记为Ent
2020-05-24 21:46:54
487
原创 《机器学习》 第三章线性模型 总结
写在前面前三章是机器学习的基础知识,其中涉及了非常多的数学公式推到。特别是第二第三章,初学者对这些公式的具体推导比较吃力,看书也是一点一点磨着看的。。。我磨了一个星期总算是磨完了=_=,期间发现一本好书《南瓜书》,把西瓜书简略的公式推导补充了很多,网址:https://datawhalechina.github.io/pumpkin-book/#/基本形式线性模型(linear model):由属性的线性组合来进行预测的模型,预测的函数形式为公式(3.1),许多更复杂的非线性模型(nonlinear
2020-05-24 20:40:48
482
原创 《机器学习》第二章模型评估与选择 总结
基本概念误差(error):学习器的实际预测输出与样本的真实输出之间的差异。训练误差(training error)/ 经验误差(empirical error):学习器在训练集上的误差。泛化误差(generalization error):学习器在新样本上的误差。过拟合(过配):学习器把训练样本自身的一些特点当作了所有潜在样本都具有的一般性质,这导致了泛化性能的下降。过拟合相对较难处理且无法避免。欠拟合(欠配):学习器对训练样本的一般性质尚未学好。测试集和训练集的划分方法留出法定义:略。一
2020-05-24 11:54:48
564
原创 《机器学习》第一章绪论 总结
《机器学习》第一章绪论 总结1.2 基本术语示例(instance)/ 样本(sample):关于一个事件或对象的描述,也可以认为是一个记录数据集(data set):样本/示例/记录的集合,D={x_1,x_2,…,x_m}表示包含m个示例的数据集。若每个示例x_i=(x_i1; x_i2;…;x_id)是样本空间χ中的一个向量,则d称为样本 x_i的维数,x_ij是x_i在第j个属性上的取值属性(attribute)/ 特征(feature):反映事件或对象在某方面的表现或性质的事项。属性值
2020-05-23 18:23:20
518
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅