
机器学习
文章平均质量分 84
yuexiahandao
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习实战笔记—朴素贝叶斯
基于概率论的分类方法:朴素贝叶斯 首先从一个最简单的概率分类器开始,然后给出一些假设来来学习朴素贝叶斯分类器。称为“朴素”是因为整个形式化过程只做最原始、最简单的假设。充分利用Python的文本处理能力将文档切分成词向量,然后利用词向量对文档进行分类。 理论基础 算法的优缺点: 优点:在数据缺少的情况下仍然有效,可以处理多类别问题。(在乎的是概率,不在乎个体的好坏) 缺点:对于输入数据的...原创 2018-10-03 00:08:44 · 239 阅读 · 0 评论 -
机器学习实战笔记—Logistic回归
这里我们会提到sigmoid函数,而且这个函数(梯度上升法和梯度下降法)就像是神经网络的一个神经元(个人这么看而已),也像二极管的0.7V电压,这里面会提到梯度下降法,也会了解数据中缺失的处理。 Logistics回归会让我们接触最优化算法。其实我们生活中这样的问题很多,例如如何在最短时间内从A地到B地?如何在投入少的情况下,获得最大收益?这个我们以前的解决方案就是使用动态规划的算法,或者是使用...原创 2018-10-18 00:17:55 · 230 阅读 · 0 评论 -
机器学习实战笔记——机器学习基础
机器学习基础 1. 机器学习分为监督学习和无监督学习。 2. 监督学习一般使用两种类型的目标变量:标称型和数值型 标称型:就是取值比较固定的类型。有点像枚举类型,有穷值。这种特性的数据比较适合用于分类。 数值型:在无限的数据集中取值。比较适合找规律和线性回归,另外范围限定后也会成为标称型。 3. 我们可以将数据集分为测试集、验证集和训练集。 训练集用于处理训练模型 验证集用于调试自己的...原创 2018-09-29 03:07:08 · 272 阅读 · 0 评论 -
机器学习实战笔记——k-近邻算法
K-近邻算法 描述 k-近邻算法采用测量不同特征值之间的距离方法进行分类。 算法特点: 优点:精度高、对异常值不敏感、无数据输入假定。 缺点:计算复杂度高、空间复杂度高。(耗时,耗计算资源,例如中间数据的存储,另外是测试对象,要和所有的样本对象进行比较,没有训练的过程,只有测试过程。)。最大的缺点就是无法给出数据的内在含义。 适用数据范围:数值型(可以通过范围进行散列)和标称型。(散列...原创 2018-09-29 14:31:54 · 418 阅读 · 0 评论 -
机器学习实战笔记——决策树
决策树 - ID3 决策树也是经常使用的数据挖掘算法。 这张图所示就是一个决策树。长方形代表判断模块,椭圆形代表终止模块。从判断模块引出的左右箭头称作分支。 决策树的一个重要任务是为了理解数据中所蕴含的知识信息,因此决策树可以使用不熟悉的数据集合,并从中提取出一系列,这些机器根据数据集创建规则的过程,就是机器学习的过程。 训练出来的数据可以使用Matplotlib来绘制决策树图。 决...原创 2018-09-29 20:14:57 · 264 阅读 · 0 评论 -
机器学习Python环境建立
机器学习的主力语言python是不可或缺的,下面写一下python开发人工智能所需要依赖项的安装过程。以mac电脑为准;软件管理工具请安装Homebrew Python安装 brew install python PIP安装 这是python中常用的第三方库管理工具,python安装的时候默认不装,需要自己去安装。分为两个版本一个pip3和pip。 pip3的安装很简单,软件镜像源中一...原创 2019-09-03 02:55:02 · 357 阅读 · 0 评论