spark机器学习之常见的分类算法应用

今天简单记录下mllib中常见的分类算法,在分类的子文件夹下主要有三类分类算法:logistic回归模型、贝叶斯模型、SVM模型。

logistic回归模型

首先需要认清的是逻辑斯蒂回归并非回归模型,和上节介绍的线性回归不一样,它是属于分类模型,虽然和线性回归功能上不一样,但是形式上和线性回归还是很相似的,不同点在于通过添加logistic映射函数使得原始的线性回归方程式变成了可用于分类的模型。应该来说logistic回归模型是分类算法里面最简单的,实际中也是最容易最先被尝试的一种方法。

关于logistic回归的详细原理,以前的文章一件详细介绍过了,对原理不明白的可以参考:

机器学习之logistic回归与分类

本节旨在记录spark里面的应用方法。在mllib里面,logistic模型的创建很简单,工具箱已经封装好了,在2.11版本中,主要有两种,一直是SGD训练的模型类:LogisticRegressionWithSGD,一直是LBFGS,拟牛顿法,这个方法原理比较高深,显著的特点是优化速度更快,更准,在面试的时候可能会问到,相应的类就是LogisticRegressionWithLBFGS。

  • 数据准备

不管是分类还是回归,mllib里面多数是以一种LabeledPoint的数据格式封装每一个训练样本,这个结构在前面仔细介绍过。里面的结构就是(label,feature)的格式,其中feature又是vector的格式,以后后续的所有分类模型,基本都是这种结构。

训练数据采用mllib的example自带的,样子如下:

0 128:51 129:159 130:253 131:159 132:50 155:48 156:238 157:252 158:252 159:252 160:237 182:54 183:227 184:253 185:252 186:239 187:233 188:252 189:57 190:6 208:10 209:60 210:224 211:252 212:253 213:252 214:202 215:84 216:252 217:253 218:122 236:163 237:252 238:252 239:252 240:253 241:252 242:252 243:96 244:189 245:253 246:167 263:51 264:238 265:253 266:253 267:190 268:114 269:253 270:228 271:47 272:79 273:255 274:168 290:48 291:238 292:252 293:252 294:179 295:12 296:75 297:121 298:21 301:253 302:243 303:50 317:38 318:165 319:253 320:233 321:208 322:84 329:253 330:252 331:165 344:7 345:178 346:252 347:240 348:71 349:19 350:28 357:253 358:252 359:195 372:57 373:252 374:252 375:63 385:253 386:252 387:195 400:198 401:253 402:190 413:255 414:253 415:196 427:76 428:246 429:252 430:112 441:253 442:252 443:148 455:85 456:252 457:230 458:25 467:7 468:135 469:253 470:186 471:12 483:85 484:252 485:223 494:7 495:131 496:252 497:225 498:71 511:85 512:252 513:145 521:48 522:165 523:252 524:173 539:86 540:253 541:225 548:114 549:238 550:253 551:162 567:85 568:252 569:249 570:146 571:48 572:29 573:85 574:178 575:225 576:253 577:223 578:167 579:56 595:85 596:252 597:252 598:252 599:229 600:215 601:252 602:252 603:252 604:196 605:130 623:28 624:199 625:252 626:252 627:253 628:252 629:252 630:233 631:145 652:25 653:128 654:252 655:253 656:252 657:141 658:37
1 159:124 160:253 161:255 162:63 186:96 187:244 188:251 189:253 190:62 214:127 215:251 216:251 217:253 218:62 241:68 242:236 243:251 244:211 245:31 246:8 268:60 269:228 270:251 271:251 272:94 296:155 297:253 298:253 299:189 323:20 324:253 325:251 326:235 327:66 350:32 351:205 352:253 353:251 354:126 378:104 379:251 380:253 381:184 382:15 405:80 406:240 407:251 408:193 409:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值