BETA冲刺前准备

AI算法与软件开发挑战
本文探讨了在数据集不足的情况下,AI算法如CRNN文字识别模块的局限性及其改进措施,包括数据集的重新分配、算法模块的替换以及数据增强手段的应用。同时,文章也提到了软件开发过程中遇到的问题,如服务器性能不足、权限处理不当和界面设计不合理等,并分享了相应的解决方案。

写在前面

过去存在的问题

算法组

  • 没有考虑到数据集不充足的情况。一开始我们将所有数据集按照8:1:1进行分割,分别分配给训练集、开发集和测试集。然鹅后来发现采集到的数据不够充足,这么分割训练效果不理想。

  • 由于本次数据数量有限,导致CRNN文字识别模块虽然能达到很高的识别正确率,但是泛化性始终不能达到预期的效果。以及对于添加摩尔纹或者被障碍物遮挡这方面的数据集不在训练集中,导致上述图片的识别效果不好。

开发组

  • 由于我们的算法对服务器要求较高,原先采用的阿里云9.9元服务器性能并不足以完整地载入模型进行运算。

  • alpha版本的软件是针对安卓4.4进行编写的,在权限的处理上存在不足,没有动态申请权限。在安卓6.0及以上的手机上运行会出现没有权限的问题。

  • 在子界面的返回操作处理上,细节处理的不够好。不符合安卓用户惯用的通过“返回键”返回上一级界面的方式。

其他

  • 没有规范的技术文档,导致开发很混乱,会出现某个功能完成后接入主程序的时候出现问题。
  • 没有强制性的deadline,许多工作经常没能按时完成。

我们已经做了哪些调整/改进

算法组

  • 考虑到采集到的数据量小,按9:1分配给训练集和测试集。这样就能够提升模型效果。

  • 尝试抛弃CRNN文字识别模块,启用YOLO中被删除的词树模块来CRNN,由文字识别转为对现有数据集按商店名进行分类。且在数据集中添加含有摩尔纹和障碍物以及不同光线条件下的数据集,增加算法的鲁棒性。

开发组

  • 使用笔记本电脑搭建本地服务器。
  • 现阶段主要采用手动在系统设置里赋予软件软线的方式。
  • 现阶段主要是采用类似苹果的用过左上角按钮返回的方式。

其他

  • 我们查询了相关文档,了解如何写技术文档。
  • 未能按时提交的同学请喝奶茶(๑¯ิε ¯ิ๑)

我们在接下来的Beta冲刺中会有哪些改进

算法组

  • 多拍照片,扩大数据集。
  • 基于神经风格迁移、平移、选择、高斯噪声等一系列数据增强的手段在数据集扩充上起到了较佳的效果,但是自然场景下的中文识别的泛化性问题仍是当今难以解决的难题之一,我们计划以目标检测来代替文字识别,通过直接对商铺招牌进行检测,来尽可能避免文字识别模块带来的精度误差。

开发组

  • 如果有柯老板的天使投资,可以尝试购买更好的云服务器。否则的话应该还是继续使用本地电脑作为服务器。
  • 后期将使用动态申请权限的方式,并給用户友好的提示。
  • 后期将加上通过虚拟或者物理按键返回的方式。

其他

  • 如果时间上允许,我们会试着写我们自己的技术文档。
  • 未能按时提交任务的同学要扣贡献度!

转载于:https://www.cnblogs.com/mercuialC/p/10080582.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值