在Kaggle手写数字数据集上使用Spark MLlib的RandomForest进行手写数字识别

通过调整RandomForest参数,如树的数量和深度,实现了对手写数字数据集的高精度预测,最高准确率达到0.96586。

昨天我使用Spark MLlib的朴素贝叶斯进行手写数字识别,准确率在0.83左右,今天使用了RandomForest来训练模型,并进行了参数调优。

首先来说说RandomForest 训练分类器时使用到的一些参数:

  • numTrees:随机森林中树的数目。增大这个数值可以减小预测的方差,提高预测试验的准确性,训练时间会线性地随之增长。
  • maxDepth:随机森林中每棵树的深度。增加这个值可以是模型更具表征性和更强大,然而训练也更耗时,更容易过拟合。

    在这次的训练过程中,我就是反复调整上面两个参数来提升预测的准确性。首先来设定一下一些参数的初始值。

    val numClasses = 10
    val categoricalFeaturesInfo = Map[Int, Int]()
    val numTrees = 3 
    val featureSubsetStrategy = "auto" 
    val impurity = "gini"
    val maxDepth = 4
    val maxBins = 32

第一次我将树的数目设定为3,每棵树深度为4。下面开始训练模型:

val randomForestModel = RandomForest.trainClassifier(data, numClasses, categoricalFeaturesInfo, numTrees, featureSubsetStrategy, impurity, maxDepth, maxBins)

与使用朴素贝叶斯时评估准确率方式一样,我使用训练数据来计算准确率:

    val nbTotalCorrect = data.map { point =>
      if (randomForestModel.predict(point.features) == point.label) 1 else 0
    }.sum
    val numData = data.count()
    println(numData)
    //42000
    val nbAccuracy = nbTotalCorrect / numData

下面是每次对上面所说到的两个参数进行调整后得到的准确率:

    //numTree=3,maxDepth=4,准确率:0.5507619047619048
    //numTree=4,maxDepth=5,准确率:0.7023095238095238
    //numTree=5,maxDepth=6,准确率:0.693595238095238
    //numTree=6,maxDepth=7,准确率:0.8426428571428571
    //numTree=7,maxDepth=8,准确率:0.879452380952381
    //numTree=8,maxDepth=9,准确率:0.9105714285714286
    //numTree=9,maxDepth=10,准确率:0.9446428571428571
    //numTree=10,maxDepth=11,准确率:0.9611428571428572
    //numTree=11,maxDepth=12,准确率:0.9765952380952381
    //numTree=12,maxDepth=13,准确率:0.9859523809523809
    //numTree=13,maxDepth=14,准确率:0.9928333333333333
    //numTree=14,maxDepth=15,准确率:0.9955
    //numTree=15,maxDepth=16,准确率:0.9972857142857143
    //numTree=16,maxDepth=17,准确率:0.9979285714285714
    //numTree=17,maxDepth=18,准确率:0.9983809523809524
    //numTree=18,maxDepth=19,准确率:0.9989285714285714
    //numTree=19,maxDepth=20,准确率:0.9989523809523809
    //numTree=20,maxDepth=21,准确率:0.999
    //numTree=21,maxDepth=22,准确率:0.9994761904761905
    //numTree=22,maxDepth=23,准确率:0.9994761904761905
    //numTree=23,maxDepth=24,准确率:0.9997619047619047
    //numTree=24,maxDepth=25,准确率:0.9997857142857143
    //numTree=25,maxDepth=26,准确率:0.9998333333333334
    //numTree=29,maxDepth=30,准确率:0.9999523809523809

可以发现,准确率在numTree=11,maxDepth=12 附近开始收敛到0.999。这次得到的准确率要比上次使用朴素贝叶斯训练得出的准确率(0.826)要高出许多。现在开始对测试数据进行预测,使用的参数是numTree=29,maxDepth=30

val predictions = randomForestModel.predict(features).map { p => p.toInt }

把训练出来的结果上传到Kaggle上,得到的准确率为0.95929 ,经过我的四次参数调整,得到的最高的准确率是0.96586 ,设置的参数是:numTree=55,maxDepth=30 ,当我将参数改为numTree=70,maxDepth=30 时,准确率有所下降,为0.96271 ,看来这个时候出现过拟合了。不过准确率能从昨天的0.83提高到0.96还是挺兴奋的,我还会继续尝试使用其他方式进行手写数字识别,不知何时能达到1.

内容概要:本文详细介绍了“秒杀商城”微服务架构的设计实战全过程,涵盖系统从需求分析、服务拆分、技术选型到核心功能开发、分布式事务处理、容器化部署及监控链路追踪的完整流程。重点解决了高并发场景下的超卖问题,采用Redis预减库存、消息队列削峰、数据库乐观锁等手段保障数据一致性,并通过Nacos实现服务注册发现配置管理,利用Seata处理跨服务分布式事务,结合RabbitMQ实现异步下单,提升系统吞吐能力。同时,项目支持Docker Compose快速部署和Kubernetes生产级编排,集成Sleuth+Zipkin链路追踪Prometheus+Grafana监控体系,构建可观测性强的微服务系统。; 适合人群:具备Java基础和Spring Boot开发经验,熟悉微服务基本概念的中高级研发人员,尤其是希望深入理解高并发系统设计、分布式事务、服务治理等核心技术的开发者;适合工作2-5年、有志于转型微服务或提升架构能力的工程师; 使用场景及目标:①学习如何基于Spring Cloud Alibaba构建完整的微服务项目;②掌握秒杀场景下高并发、超卖控制、异步化、削峰填谷等关键技术方案;③实践分布式事务(Seata)、服务熔断降级、链路追踪、统一配置中心等企业级中间件的应用;④完成从本地开发到容器化部署的全流程落地; 阅读建议:建议按照文档提供的七个阶段循序渐进地动手实践,重点关注秒杀流程设计、服务间通信机制、分布式事务实现和系统性能优化部分,结合代码调试监控工具深入理解各组件协作原理,真正掌握高并发微服务系统的构建能力。
数字图像隐写术是一种将秘密信息嵌入到数字图像中的技术,它通过利用人类视觉系统的局限性,在保持图像视觉质量的同时隐藏信息。这项技术广泛应用于信息安全、数字水印和隐蔽通信等领域。 典型隐写技术主要分为以下几类: 空间域隐写:直接在图像的像素值中进行修改,例如LSB(最低有效位)替换方法。这种技术简单易行,但对图像处理操作敏感,容易被检测到。 变换域隐写:先将图像转换到频域(如DCT或DWT域),然后在变换系数中嵌入信息。这类方法通常具有更好的鲁棒性,能抵抗一定程度的图像处理操作。 自适应隐写:根据图像的局部特性动态调整嵌入策略,使得隐写痕迹更加分散和自然,提高了安全性。 隐写分析技术则致力于检测图像中是否存在隐藏信息,主要包括以下方法: 统计分析方法:检测图像统计特性的异常,如直方图分析、卡方检测等。 机器学习方法:利用分类器(如SVM、CNN)学习隐写图像的区分特征。 深度学习方法:通过深度神经网络自动提取隐写相关特征,实现端到端的检测。 信息提取过程需要密钥或特定算法,通常包括定位嵌入位置、提取比特流和重组信息等步骤。有效的隐写系统需要在容量、不可见性和鲁棒性之间取得平衡。 随着深度学习的发展,隐写反隐写的技术对抗正在不断升级,推动了这一领域的持续创新。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值