
机器学习
文章平均质量分 81
GeekDengshuo
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
贝叶斯分类器
贝叶斯分类器1.基础知识概率论的基本知识先验概率:由以往的数据得到的后验概率:得到信息后再重新加以修正的概率 条件风险公式(期望损失):R(ci∣x)=∑j=1NλijP(cj∣x)R(ci∣x)=∑j=1NλijP(cj∣x)R(c_i\mid \textbf x)=\sum_{j=1}^N \lambda_{ij} P(c_j\mid \te...原创 2018-06-26 15:29:25 · 374 阅读 · 0 评论 -
第六章 支持向量机
支持向量机一.基础知识1 概念及定义支持向量机是一个二类分类模型,基本模型的定义为:是在特征空间上的间隔最大的线性分类器支持向量机学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面.二次规划是一类典型的优化问题,包括凸二次优化和非凸二次优化目标函数是变量的二次函数,约束条件是变量的线性不等式核技巧(kernel trick): 一般用来...原创 2018-06-22 11:57:38 · 444 阅读 · 0 评论 -
第四章 决策树
决策树 Decision Tree一.基础知识树的基本类型: 结点(内部节点,叶结点)+有向边 决策树也叫判断树,树的结构是满足 if-then 条件规则的. 树的特点:可读性性高,分类速度快二.思想脉络决策树=从训练数据集中归纳出一组分类规则(模型)+以损失函数为目标函数的最小化(策略)+递归的选择最优特征(算法)三.算法推导决策树的生成特征选择(...原创 2018-05-30 15:05:28 · 249 阅读 · 0 评论 -
第三章 K 近邻法 (kNN 以及kd-tree)
k近邻法基础知识1 模型使用的模型实际上对应于特征空间的划分.模型的三个基本要素:距离度量 , k值的选择 , 分类决策规则决定.思想脉络1 方法的流程简述给定一个训练数据集,对于新的输入实例,在训练数据集中找到与之最临近的k个实例,这k个实例的多数属于某个类, 就把实例分为这个类.这个算法没有显示的训练过程,应用的过程就是训练的过程算法推...原创 2018-05-29 14:32:22 · 592 阅读 · 0 评论 -
第九章 聚类 Clustering
第九章 聚类(Unsupervised Learning)无监督学习: 训练样本的标记信息是未知的,通过对无标记数据的训练来找出数据内部所存在的规律以及性质.为进一步的数据分析打下基础1.知识点聚类过程中会自动的形成簇结构,但是算法对簇(cluster)没有概念,这是在运算过程中自己出现的聚类现象,这个簇的名字需要自己来进行定义聚类可作为一个单独的过程来完成,用于去寻...原创 2018-05-16 16:12:27 · 333 阅读 · 0 评论 -
第一章 机器学习方法概论
机器学习方法概论基础知识1 机器学习三要素构建一个机器学习方法就是确定具体机器学习三要素的过程机器学习方法=模型+策略+算法模型:就是所要学习的条件概率分布或决策函数策略:模型的假设空间包括所有可能的条件概率分布和决策函数,按照什么样的准则学习或选择最优模型. 也就是在假设空间中如何选择最优模型就是策略.算法:算法就是指学习模型的具体计算方法....原创 2018-05-22 10:38:31 · 271 阅读 · 0 评论 -
第八章 Ensemble_learning
Ensemble learning根据集成学习的生成方式,集成学习可分成两大类:Boosting:个体间存在强依赖关系,必须串行生成的序列化方法 Bagging&Randon Forest: 个体间学习器不存在强依赖关系,可以同时生成的并行化方法loss function(损失函数) 以及 cost function(代价函数)的区别 定义# 如何使用集成学习fro...原创 2018-05-15 10:43:11 · 371 阅读 · 0 评论 -
Data Exploration using Pandas pandas库 数据读取&清洗
原文章:pandas速查手册 英文文章:pandas cheat sheet 如果你想学习Pandas,建议先看两个网站。 pandas官方github:pandas-dev(1)官网:Python Data Analysis Library(2)十分钟入门Pandas:10 Minutes to pandas在第一次学习Pandas的过程中,你会发现你需要记忆很多的函数和方法。...转载 2018-04-11 21:00:14 · 429 阅读 · 0 评论 -
Python 利用matplotlib绘制热力图 correlation heatmap X,Y 坐标轴字体重叠显示问题,将字体进行旋转
# 小白学习之路1.问题描述: 在学习kaggle经典学习项目Titanic,进行数据可视化处理时,对于每个特征进行相关性分析(也就是绘制pearson correlation heatmap )热力相关性矩阵时, plt.show() 图形绘制出来,字体会重叠.导致无法观察# Visualisations"""将数据进行可视化"""print(train.h...原创 2018-04-02 11:10:55 · 27357 阅读 · 10 评论 -
Use matplotlib draw the tree
Plotting the tree in Python with Matplotlib annotationsUnfortunately,Python does’t include a good tool for plotting trees. so we’ll make our own.这才是真正的工程师精神Matplotlib has a great tool ,calle...原创 2018-04-15 15:55:15 · 1068 阅读 · 0 评论 -
NeuralNetworks(BP算法的实现)
神经网络 (BP算法的实现)1.基础知识1.1神经元模型神经网络是由具有适应性的简单单元组成的广泛并行互连的网络和 HomeDepot 商品搜索相关性比赛第三名(2125支队伍),曾在 Kaggle 数据科学家排行榜排名全球第十,国内第一。笔者目前在...转载 2018-04-22 15:53:24 · 833 阅读 · 0 评论 -
第七章 贝叶斯分类器的推导及实现
贝叶斯分类器1.基本的概率论知识先验概率:由以往的数据得到的后验概率:得到信息后再重新加以修正的概率 R(ci∣x)=∑j=1NλijP(cj∣x)R(ci∣x)=∑j=1NλijP(cj∣x)R(c_i\mid \textbf x)=\sum_{j=1}^N \lambda_{ij} P(c_j\mid \textbf x)对于每个样本 xx\text...原创 2018-05-07 15:41:07 · 1251 阅读 · 0 评论 -
第五章 神经网络
神经网络1.基础知识神经网络是由具有适应性的简单单元组成的广泛并行互连的网络 Perceptron 感知机感知机只有两层神经元组成,而且只有输出层是M-P神经单元也就是功能神经元反向传播算法(Back propagation)可以应用于多层前馈神经网络,还可以应用于训练递归神经网络一般说 BP算法就是训练的多层前馈神经网络.深度学习的基本名词卷积神经网络(c...原创 2018-06-20 10:53:27 · 5447 阅读 · 0 评论