深度学习从连子棋开始

1. 面向人群

随着人工智能的广泛应用,涉足深度学习的人越来越多,这些人总体上分为两类:(1)一类是开发人员,这类人主要使用现有的深度学习开源框架和公开的模型进行编程,以实现某个功能,e.g 车辆检测;(2)另一类是研发人员,他们主要基于现有的深度学习开源框架来设计和搭建自己的神经网络结构,并用大量数据训练出相应的模型,以便进一步实现某个功能。

本文所述内容主要面向第二类人员,即面向那些想自己设计神经网络结构的研发人员,而且是入门阶段的研发人员。

2. 数据特性

涉足深度学习的人员所从事的领域多种多样,当前主要集中于视觉、自然语言处理、语音、数据挖掘(商务智能BI)等。

视觉领域的数据主要指图像,包括彩色图像、黑白图像、红外图像等诸多种类。实际训练模型时使用的是图像中每个像素的值,然而,这些像素值是不确定的,同一个位置的像素值是会随着相机硬件、周围光照等的影响而变化的,例如:在拍摄人脸照片进行人脸识别时,用两台相机拍摄,然后取同一个位置(e.g 鼻尖)的像素,两张照片中的像素值可能不同;即便用同一台相机,在有阳光和阴天、室内和室外、中午和傍晚等对照情形下拍摄所得的照片,其同一位置的像素值也可能不同。简而言之,数据采集的标准不是唯一确定的,所以,用于训练模型的千万张照片可能采用的是多种多样的数据采集标准,这会增加神经网络结构的设计难度。

另外,拍摄角度、拍摄距离、相机畸变、目标非刚性变化等众多因素也会增加神经网络结构设计的复杂度。同时,这些也是视觉领域里的部分难点,甚至其中不少的难点至今还没有攻克。上述问题在视觉领域里都是需要解决的,也是视觉研发人员的研究方向,但是,对于深度学习初学者来说,却会增加入门的难度

自然语言处理领域的数据本身就存在不唯一性,一句话的具体意思不仅仅取决于组成语句的词和短语,还跟说话的人、说话的语气、说话的场景和上下文等有密切的关系,这些因素都会大大地增加初学者入门深度学习的难度。

语音识别、数据挖掘等其他领域的数据同样会受多种多样的因素和噪声的影响,从而导致初学者入门困难,例如:语音采集时的设备质量和参数、环境噪音、发音的清晰度和发音标准程度等等都会增加语音数据的多变性,从而增加神经网络结构的设计难度,典型的,用普通话读一句话和用方言读、亢奋发音和柔弱发音、快节奏和慢节奏发音等都会产生诸多连带的差异和影响。

3. 结论

对于初涉深度学习的研发人员来说,从上述常见领域中选择入门项目会增加入门深度学习的困难程度,最终只能限制场景或降低要求,针对某一个特定场景研发一个看起来凑合的神经网络结构,例如:人脸正对摄像头、站在摄像头前3米至5米的距离、周围光照强度在某某范围等限制场景下的人脸识别。

当然了,还有另一个更好的选择,就是改用连子棋这样的项目来入门深度学习。连子棋的数据确定为黑棋、白棋、空白三个值,不会受其它因素的影响,因而能保障研发人员将精力集中在神经网络结构设计和模型训练上,不需要考虑额外的不确定性因素。

4. 附

神经网络连子棋及对应的SDK(www.gnxxkj.com)可以作为各位研发人员的参考,供大家评判自己所搭建的神经网络结构的优劣,以及评判自己所训练出的模型的智能水平。

如果缺少训练数据,可以通过“神经网络连子棋”软件提供的联系方式购买,少量的训练数据也可以通过下列网址免费下载:

官网下载:www.gnxxkj.com

github下载:https://github.com/wangdechang119

gitlab下载:https://gitlab.com/wangdechang119

gitee下载:https://gitee.com/wangdechang119

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

De-Chang Wang

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值