- 博客(17)
- 收藏
- 关注
原创 Hadoop伪分布式搭建及wordcount实验详细步骤
目录一、准备二、安装jdk三、安装Hadoop四、文件配置五 、wordcount文件下载hadoop-2.7.3.tar,vm15p,ubuntu-16.04.6-server-amd64,jdk-8u171-linux-x64.tar,Xftp-6.0.0169p,Xshell-6.0.0175p等为安装软件,请提前安装,下载地址链接:下载地址 提取码:s33d。一、准备1.1创建Hadoop用户 sudo useradd -m hadoop -s /bin...
2020-05-11 14:59:59
1018
转载 机器学习中的损失函数
目录损失函数一、log对数损失函数(逻辑回归)二、平方损失函数(最小二乘法, Ordinary Least Squares )三、指数损失函数(Adaboost)四、Hinge损失函数(SVM)五、其它损失函数损失函数损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示...
2018-09-06 21:03:36
1382
原创 支持向量机
感知机是非常简单的线性二类分类器,是SVM的基础,原理就是找一个线性超平面来对训练数据进行划分,下面按照机器学习算法三要素的形式来介绍感知机。一、模型我们分别用+1、-1来标记正负类别,则模型可以表示为如下函数: si...
2018-08-08 15:33:58
394
原创 线性模型
目录1、基本形式2、线性回归3、对数几率回归(逻辑回归)3.1、极大释然估计3.1.1、似然函数3.1.2、极大似然估计(MLE)3.1.3、log似然函数3.2、逻辑回归4、线性判别分析5、多分类学习问题6、类别不平衡问题1、基本形式给定有d个属性描述的示例;线性模型试图学得一个通过属性的线性组合来进行预测的函数,即:许多功能强大的非线...
2018-08-08 09:30:49
10561
原创 《机器学习》总结与心得
目录1、数据抽象2、设定性能度量指标3、数据预处理4、选定模型4.1、方法与目的4.2、目的与方法5、训练及优化6、应用这段时间把《机器学习》看了一遍,总的来说,除了前两章是基础,其余章节都是介绍模型方法,应用场景、理论推导、优化过程、算法等,每章都可独立阅读而不受其他章节影响。如果只是每一章都看完,顶多就是了解了一种方法,相互之间是割裂的,这样当碰到一个实...
2018-08-03 21:36:45
29436
原创 神经网络
目录1、神经元模型2、感知机与多层网络3、BP神经网络算法4、 全局最小与局部最小5、 深度学习在机器学习中,神经网络一般指的是“神经网络学习”,是机器学习与神经网络两个学科的交叉部分,是另一个经典的监督学习算法。所谓神经网络,目前用得最广泛的一个定义是“神经网络是由具有适应性(这里的适应性主要指权重和阈值的自动确定,即学习)的简单单元组成的广泛并行互连(某神经元,1与同层...
2018-08-02 17:48:01
841
转载 聚类—谱聚类算法
目录1. 谱聚类概述2. 谱聚类基础之一:无向权重图3. 谱聚类基础之二:相似矩阵3.1、ϵ-邻近法3.2、K邻近法3.3、全连接法4. 谱聚类基础之三:拉普拉斯矩阵5. 谱聚类基础之四:无向图切图6. 谱聚类之切图聚类6.1 RatioCut切图6.2 Ncut切图7. 谱聚类算法流程8. 谱聚类算法总结谱聚类(spectral clust...
2018-08-01 22:28:45
2300
原创 聚类之密度峰值算法
目录 1、前言2、密度峰值算法2.1、距离度量2.2、局部密度2.3、与高密度点之间的距离3、如何聚类1、前言With the rapid development of informatization, there are large amounts of data generating in all walks of life, from the Intern...
2018-07-31 21:59:10
22503
1
原创 朴素贝叶斯分类器 详细解析
目录1 贝叶斯决策论1.1 后验概率1.2 贝叶斯定理2. 朴素贝叶斯分类算法详解3.例题分析4. 朴素贝叶斯分类的优缺点 1 贝叶斯决策论贝叶斯决策论(Bayesian decision theory)是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的理想情况下,贝叶斯决策轮考虑如何基于这些概率和误判损失来选择最优的类别标记。1.1 后...
2018-07-17 15:43:23
49886
5
原创 聚类-K-means算法详细总结
目录1、聚类2、k-means算法过程2、k-means算法优缺点分析 优点 缺点3、k-means算法改进方法: K-Means ++ 算法1、聚类 所谓聚类问题,就是给定一个元素集合D,其中每个元素具有n个可观察属性,使用某种算法将D划分成k个子集,要求每个子集内部的元素之间相异度尽可能低,而不同子集的元素相异度尽可能高。其中每个子集叫做一个簇。...
2018-07-16 19:37:21
3099
原创 聚类有效性指标小结
关于聚类的评价指标可以参考以下文献机器学习常见评价指标Clustering Algorithms and EvaluationsEvaluation of clustering
2018-07-15 15:16:01
7779
1
原创 机器学习-无监督学习-聚类
https://blog.youkuaiyun.com/Mr_tyting/article/details/76719062
2018-05-29 15:37:12
259
原创 决策树详细解析
目录1、基本概念2、 决策树的构造2.1、ID3算法 / 信息熵2.2、C4.5算法 / 增益率2.3、CART算法 / 基尼指数3、剪枝操作4、 连续值与缺失值处理4.1、连续值离散化4.2、缺失值处理1、基本概念顾名思义,决策树是基于树结构来进行决策的,在网上看到一个例子十分有趣,放在这里正好合适。现想象一位捉急的母亲想要给自己的女娃介绍一个男朋友,...
2018-05-28 22:02:45
19542
3
原创 机器学习模型评估方法
目录1、基本概念 2、数据集划分方法 2.1、留出法2.2、交叉验证法2.3、自助法2.4、调参3、性能度量3.1、 查准率,查全率与F13.2、如何比较两学习器性能3.3、ROC、AUC和EER3.4、代价敏感错误率4、比较检验4.1、假设检验4.2、交叉验证t检验4.3、McNemar检验4.4、Friedman检验...
2018-05-22 23:08:37
13136
原创 动态规划算法在不同阶楼梯中的走法
有一座高度是n级台阶的楼梯,从下往上走,每跨一步只能向上1级或者2级台阶。要求用程序来求出一共有多少种走法。#include/*自顶向下递归调用法int f(int i){ if(i==1) return 1; else if(i==2) return 2; else return f(i-1)+f(i-2);}
2017-07-07 21:40:44
867
转载 大数据框架 Hadoop 和 Spark 的异同
目录1、解决问题的层面不一样2、两者可合可分3、Spark数据处理速度秒杀MapReduce4、灾难恢复谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。1、解决问题的层面不一样首先,Hadoop和Apache Spark两者都是大数...
2017-07-05 10:38:28
476
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人