- 博客(9)
- 收藏
- 关注
原创 AdaBoost元算法提高分类性能
前面介绍了5种不同的分类算法,它们各有优缺点。我们可以将不同的分类组合起来,这种组合结果称为集成算法,或元算法。优点:泛化错误率低,易编码,可以应用在大部分分类器之上,无参数调整。缺点:对离群点敏感。1.bagging:基于数据随机重抽样的分类器构建方法自举汇聚法(bootstrap aggregating),也称bagging方法。是从原始数据集选择S次后得到S个新数据集的一种技...
2018-08-28 20:28:44
215
原创 机器学习——支持向量机2(SVM)
四, 非线性SVMimport matplotlib.pyplot as pltimport numpy as npimport randomclass optStruct: """ 数据结构,维护所有需要操作的值 Parameters: dataMatIn - 数据矩阵 classLabels - 数据标签 ...
2018-08-09 23:20:20
351
原创 机器学习——支持向量机1(SVM)
一. 前言SMO算法的步骤:步骤1:计算误差: 步骤2:计算上下界L和H: 步骤3:计算η: 步骤4:更新αj: 步骤5:根据取...
2018-08-06 22:29:55
681
原创 Spark基础
一,多进程:方便控制资源,以为独享进程空间,但是消耗更多的启动时间,不适合运行那些低延时作业,导致mapreduce时效相差多线程:spark的运行方式,所以spark适合低延迟类型的作业。好处:(1)任务启动速度快(2)同节点上的任务由于在一个进程中,所以共享内存——》适合内存密集任务(加载大量词表的程序)(3)同节点上所有任务运行在JVM进程(Executor)里面,适合Executo...
2018-08-01 22:59:35
148
原创 机器学习——logistic回归
一,引言 假设我们现有一些数据点,我们用一条直线对这些点进行拟合,这个拟合的过程就称作回归。利用logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。 我们知道,logistic回归主要是进行二分类预测,也即是对于0~1之间的概率值,当概率大于0.5预测为1,小于0.5预测为0.显然,我们不能不提到一个函数,即sigmoid=1/(1+e...
2018-07-18 15:16:22
228
原创 朴素贝叶斯
上面我们提到贝叶斯决策理论要求计算两个概率 p1(x, y) 和 p2(x, y): 如果 p1(x, y) > p2(x, y), 那么属于类别 1; 如果 p2(x, y) > p1(X, y), 那么属于类别 2.这并不是贝叶斯决策理论的所有内容。使用 p1() 和 p2() 只是为了尽可能简化描述,而真正需要计算和比较的是 p(c1|x, y) 和 ...
2018-07-16 16:52:22
164
原创 决策树
优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征的数据缺点:可能会产生过度匹配的问题使用数据类型:数值型和标称型。#计算数据集的熵from math import log #导入log函数def calcShannonEnt(dataSet): numEntries = len (dataSet) #得到数据集的行数 print(...
2018-07-03 16:08:46
183
原创 hbase配置
1.准备工具包:版本是:hbase-0.98.0-hadoop1-bin.tar.gz压缩包本机压缩包在/usr/local/src/下安装:1,解压工具包:tar zxvf hbase-0.98.0-hadoop1-bin.tar.gz2.在目录src下 ls 命令得到解压后的文件: hbase-0.98.0-hadoop13.接着进入hbase-0.98.0-hadoop1目录下在 ls 命令...
2018-05-27 17:23:33
251
原创 机器学习-K近邻算法
from numpy import *from os import listdirimport operatordef createDataSet(): group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels=['A','A','B','B'] return group,labels#k-近邻算法实现de...
2018-05-24 11:44:07
143
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人