
机器学习
wx_Jum
这个作者很懒,什么都没留下…
展开
-
机器学习之TF-IDF介绍
TF-IDF简介TF-IDF(Term Frequency-InversDocument Frequency)是一种常用于信息处理和数据挖掘的加权技术。该技术采用一种统计方法,根据字词的在文本中出现的次数和在整个语料中出现的文档频率来计算一个字词在整个语料中的重要程度。它的优点是能过滤掉一些常见的却无关紧要本的词语,同时保留影响整个文本的重要字词。TF(Term Frequency)表示某个...原创 2019-04-15 08:48:09 · 1427 阅读 · 0 评论 -
线性判别分析(LDA)与主成分分析(PCA)
简介线性判别分析(LDA)什么是LDA线性判别分析(Linear Discriminant Analysis,LDA)是一种经典的降维方法。LDA是一种监督学习的降维技术,数据集的每个样本有类别输出。LDA的特点多维空间中,数据处理分类问题较为复杂,LDA算法将多维空间中的数据投影到一条直线上,将d维数据转化成1维数据进行处理。对于训练数据,设法将多维数据投影到一条直线上,同...原创 2019-04-14 18:02:54 · 1518 阅读 · 1 评论 -
机器学习之决策树介绍
简介什么是决策树决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构建决策树来进行分析的一种方式,是一种直观应用概率分析的一种图解法;决策树是一种预测模型,代表的是对象属性与对象值之间的映射关系;决策树是一种树形结构,其中每个内部节点表示一个属性的测试,每个分支表示一个测试输出,每个叶节点代表一种类别;决策树是一种非常常用的有监督的分类算法。决策过程&nb...原创 2019-04-15 08:51:49 · 322 阅读 · 0 评论 -
特征工程全过程
简介有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面:特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选择,降维等。首次接触到sklearn,通常...转载 2019-05-13 20:15:54 · 3723 阅读 · 1 评论 -
机器学习及SparkMLlib简介
机器学习概念机器学习的定义在维基百科上对机器学习提出以下几种定义:机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。机器学习是对能通过经验自动改进的计算机算法的研究机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。可以看出机器学习强调三个关键词:算法、经验、性能,其处理过程如下图所示。上图表明机器学习是数据通过算法...原创 2019-07-25 10:35:29 · 441 阅读 · 0 评论