
机器学习
文章平均质量分 93
机器学习从0到1
隐私无忧
华为技术有限公司 安全专家,专注信息安全、人工智能领域。
展开
-
Kaggle实战入门:泰坦尼克号生还预测(进阶版)
泰坦尼克号生还预测是机器学习领域著名的数据科学竞赛平台kaggle的入门经典,本文对该数据的处理、分析、训练、预测进行了全流程介绍。原创 2023-03-21 20:51:35 · 3329 阅读 · 68 评论 -
机器学习领域经典书籍推荐
机器学习领域的五本经典书籍推荐。原创 2023-11-05 15:14:27 · 6813 阅读 · 58 评论 -
Kaggle实战入门:泰坦尼克号生还预测(基础版)
泰坦尼克号生还预测是机器学习领域著名的数据科学竞赛平台kaggle的入门经典。本文对该数据的处理、分析、训练、预测进行了全流程介绍。原创 2023-03-17 20:03:13 · 6052 阅读 · 46 评论 -
Machine Learning-L0-机器学习简介
机器学习关注的是使计算机程序能够像人一样根据经验的积累自动提高处理问题的性能,即模仿人类思维和学习过程,实现自主学习,以获取规律和知识,并作出判断与决策。原创 2020-04-13 22:49:48 · 861 阅读 · 0 评论 -
Machine Learning-L1-机器学习pipeline
机器学习pipeline1. 定义问题 2. 获取数据 3. 数据处理 4. 模型训练、评估与调优 5. 模型部署原创 2020-04-14 20:47:40 · 910 阅读 · 0 评论 -
Machine Learning-L2-数据特征
数据对象(样本)由属性/特征描述,属性(attribute)、特征(feature)、变量(variable)、维(dimension)一般可以互换使用。原创 2020-04-15 21:28:25 · 695 阅读 · 0 评论 -
Machine Learning-L3-训练集与测试集
为了防止数据的过拟合(Overfitting),一般将数据集分为两部分:训练集(Training set):用于训练模型测试集(Test set):用于测试模型。原创 2020-04-15 21:57:07 · 800 阅读 · 0 评论 -
Machine Learning-L4-决策树
决策树算法从有类标号的训练元组中,根据数据属性采用树状结构建立决策模型。原创 2020-04-16 22:38:35 · 594 阅读 · 0 评论 -
Machine Learning-L5-回归分析
线性回归:使用线性模型拟合数据输入和输出之间的映射关系。在线性回归中,试图找到一条直线(一个超平面),使所有样本到直线上(超平面上)欧氏距离(Euclidean distance)之和最小(均方误差对应欧式距离)。原创 2020-03-30 23:18:12 · 500 阅读 · 0 评论 -
Machine Learning-L6-逻辑回归
逻辑回归/对数几率回归(Logistic/Logit Regression)实际是一种分类学习方法,用于因变量是二分类(0/1,True/False,Yes/No)的情况。这种方法直接对分类可能性进行建模,无需实现假设数据分布,用线性回归模型的预测结果逼近真实标记的对数几率,可得到近似概率预测。原创 2020-04-17 22:48:23 · 472 阅读 · 0 评论 -
Machine Learning-L7-最大熵模型
最大熵(Maximum Entropy)原理是概率模型学习的一个准则,认为在所有可能的概率模型(分布)中,熵最大的模型就是最好的模型,在1957年由Edwin Thompson Jaynes提出。该原理对一个随机事件的概率分布进行预测时,认为预测应当满足全部已知的约束,而对未知的情况不做任何主观假设。此时,概率分布最均匀,预测的风险最小,得到的概率分布的熵最大。原创 2020-04-18 10:46:06 · 796 阅读 · 1 评论 -
Machine Learning-L8-SVM:支持向量机全面解析
支持向量机(Support Vector Machine)由Cortes 和Vapnik于1995年正式发表("Support vector networks", Machine Learning, 20(3):273-297),由于在二维表分类任务中显示出卓越性能,很快成为机器学习的主流技术,并在2000年掀起了统计学习的高潮。原创 2020-03-08 23:34:31 · 857 阅读 · 0 评论 -
SVM(一):线性支持向量机
1.1 问题定义(1) 划分超平面(2) 点到超平面的距离(3)支持向量、间隔(4)最优超平面1.2 对偶问题1.3 问题求解原创 2020-03-09 23:32:49 · 1298 阅读 · 1 评论 -
SVM(二):软间隔与正则化
硬间隔(hard margin)要求所有样本均满足约束,即所有样本都必须划分正确。软间隔(soft margin)允许某些样本不满足约束,即允许支持向量机在一些样本上出错。原创 2020-03-10 23:23:13 · 1907 阅读 · 0 评论 -
SVM(三):非线性支持向量机
现实任务中,训练样本经常不是线性可分的,即原始样本空间中并不存在一个能正确划分两类样本的超平面。对于这样的问题,基于Mercer核展开定理,通过内积函数定义的非线性变换,将样本从原始空间映射到一个高维特征空间(Hibbert空间),使得样本在这个高维特征空间内线性可分(升维线性化)。原创 2020-03-11 23:41:49 · 2261 阅读 · 0 评论 -
SVM(四):支持向量回归
4. 支持向量回归4.1 问题定义4.2 对偶问题原创 2020-03-12 22:27:02 · 1102 阅读 · 0 评论 -
SVM(五):SVM小结
SVM在解决高维特征的分类问题和回归问题很有效,在特征维度大于样本数时依然有很好的效果。 仅仅使用一部分支持向量来做超平面的决策,无需依赖全部数据。有大量的核函数可以使用,从而可以很灵活的来解决各种非线性的分类回归问题。 样本量不是海量数据的时候,分类准确率高,泛化能力强。但是SVM在样本量非常大,核函数映射维度非常高时,计算量过大,不太适合使用。非线性问题的核函数的选择没有通用标准,难以选择一个合适的核函数。特征维度远远大于样本数时,表现一般。原创 2020-03-21 22:20:24 · 865 阅读 · 0 评论 -
Machine Learning-L9-贝叶斯分类器(涉及贝叶斯的全在这了)
1763年12月23日,Thomas Bayes的遗产受赠者R. Price牧师 在英国皇家学会宣读了贝叶斯的遗作《An essay towards solving a problem in the doctrine of chances》(《论机会学说中一个问题的求解》),其中给出了贝叶斯定理。原创 2020-04-26 16:05:55 · 726 阅读 · 0 评论 -
Machine Learning-L10-神经网络简介
人工神经网络(ANN, Artificial Neural Network)是机器学习的一个庞大的分支,有几百种不同的算法(其中深度学习就是其中的一类算法),可用于分类(预测给定元组类标号)和数值预测(预测连续值输出)。原创 2020-04-26 20:29:49 · 725 阅读 · 0 评论 -
Machine Learning-L11-KNN
KNN所有训练元组都存放在n维模式空间中,当给定一个未知元组时,搜索模式空间,找出最接近未知元组的k个训练元组(k个“最近邻”)。原创 2020-04-26 20:55:33 · 534 阅读 · 0 评论 -
Machine Learning-L12-集成学习:Boosting/Bagging/随机森林
集成学习通过构建并结合多个学习器来完成学习任务,然后把结果整合起来进行整体预测。也称为multi-classifier system、committee-based learning。对于训练集数据,训练若干个个体学习器,并通过一定的结合策略,最终形成一个强学习器。集成学习常可获得比单一学习器显著优越的泛化性能。集成学习要求个体学习器(individual learner)要有一定的准确性及多样性。原创 2020-04-27 10:18:14 · 1071 阅读 · 0 评论 -
Machine Learning-L13-频繁模式挖掘
频繁模式(frequent pattern)是频繁出现在数据集中的模式(如项集、子序列或子结构)。原创 2020-04-27 16:00:56 · 1585 阅读 · 0 评论 -
Machine Learning-L14-聚类
聚类把数据对象集划分成多个组成或簇的过程,使得簇中的对象彼此相似,但与其他簇中的对象不相似。本文从距离度量开始,介绍了以k-means; K-Medoids为代表的划分方法、以AGNES; DIANA; BIRCH为代表的层次方法、以DBSCAN; OPTICS为代表的的基于密度的方法、以CLIQUE; STING为代表的基于网格的方法。原创 2020-05-01 20:50:20 · 1331 阅读 · 0 评论 -
Machine Learning-L15-EM算法全解析
期望极大化(EM,Expectation Maximization)是一种迭代算法,1977年由Dempster等人总结提出,用于含有隐变量(hidden variable)的概率模型参数的极大似然估计或极大后验概率估计。原创 2020-04-07 22:52:03 · 605 阅读 · 0 评论 -
Machine Learning-L16-概率图模型
现实任务涉及多个因素(变量),并且因素之间存在依赖关系。概率图模型(Probabilistic Graphical Model,PGM)为表示、学习这种依赖关系提供了一个强大的框架。原创 2020-05-02 16:25:35 · 1133 阅读 · 0 评论 -
Machine Learning-L17-贝叶斯网络
贝叶斯网络(Bayesian network)又称信念网络(belief network),使用有向无环图(Directed Acyclic Graph)来表示变量间的依赖关系,并使用条件概率表(CPT,Conditional Probability Table)描述属性的联合概率分布。原创 2020-05-02 16:57:37 · 2207 阅读 · 0 评论 -
Machine Learning-L18-隐马尔可夫模型
隐马尔可夫模型(HMM,Hidden Markov model)是关于时序的概率模型,描述由隐藏马尔可夫链随机生成不可观测的状态随机序列,再由各个状态生成一个观测而产生观测随机序列的过程。 隐马尔可夫模型属于动态贝叶斯网,可用于标注问题的模型学习,属于生成模型,在语音识别、自然语言处理,生物信息等领域有着广泛应用。原创 2020-05-02 17:15:15 · 930 阅读 · 0 评论 -
Machine Learning-L19-条件随机场
词性标注问题指给一个句子中的每个单词注明词性(名词,动词,形容词等)。 比如:“Bob drank coffee at Starbucks”,进行词性标注后:“Bob (名词) drank(动词) coffee(名词) at(介词) Starbucks(名词)”。 条件随机场应用于词性标注时,除了考虑单词本身的词性,还会考虑前后单词的词性,综合进行判定。原创 2020-05-02 17:23:08 · 701 阅读 · 0 评论 -
Machine Learning-L20-降维
原始数据通常具有较高的维数导致维数灾难,通过降维(Dimensionality reduction)可以消除数据冗余与数据噪声,降低算法的计算开销,使得数据更加易用,结果更加易懂。原创 2020-05-02 19:27:13 · 673 阅读 · 0 评论 -
熵
1 信息熵熵的概念首先在热力学中引入,用于度量一个热力学系统的无序程度。1948年,C.E. Shannon 在《A Mathematical Theory of Communication》第一次提出了信息熵。信息熵(Entropy)是信息的不确定性(Uncertainty)的度量,不确定性越大,信息熵越大。信息用来消除事件的不确定性,即消除熵=获取信息。消除熵可以通过调整事件概率、排...原创 2020-03-07 23:21:58 · 697 阅读 · 0 评论