强化学习主要是(Reinforcement learning)是一个独立的机器学习研究领域。
1.监督学习:
监督学习主要希望研究映射关系:
:它是待定系数。
机器学习范畴:知道x,y,不知道。反向推导出“
”
训练过程:足够的x,及对应的y,作为参数,逐步求出待定系数 的过程
当通过这样一个过程学习到 应该为什么值的时候,如果再有x,通过函数
可以计算出y的值。
这是监督学习中一个典型问题---线性回归。
2.非监督学习:
入门算法k-means.
在一个空间中,有很多的空间点向量(Vector),这些点在空间中的分布很可能是不均匀的。
是否能够找出各自分布的区域的中心点位置?通过k-means算法可以做到。
例子:用户的年龄、收入、贷款金额数据,通过聚类找出人群的分布,研究相同分布下的这些点的共性,针对不同的人群尝试设计相应的产品和业务,以分别满足他们的需要。
另外,可以研究离群点,它们为什么特殊?数据收集系统本身的问题还是这个点本来就是个“异类”。如诈骗事件的特征点描述。
模型体系,方法论
迁移学习(Transfer Learning)、生成对抗网络(Generative Adversarial Networks,GAN)、强化学习
处理数据,建模,训练,调优
1.1 题设
我们希望机器人足够“智能”:推理能力,判断能力,分析能力。基于这些能力自动进化,完成任务。
未来机器人电影:《终结者》《机器人总动员》
人形机器人的研究范畴:材料学,工程力学,大规模集成电路,高精度传感器工程学
算法,机器学习只占了其中一小部分。
基于海量样本训练的阿尔法围棋(Alphago)惊叹表现
问题:人脸识别(face Recognition),物体识别(Object Detective)等可以通过强化学习实现吗?
1.1.1 多智能才叫智能
强化学习:优美自然的推理过程
深度神经网络,是仿生学对人体神经结构顶礼膜拜在计算机领域的完美落地
遗传算法:大大减少计算量,对于NP问题等复杂问题有着极高的提升效率的作用
自举:自己抓着自己的头发把自己举起来
神经网络之间的信号传递、遗传因子,“孟山都”
1.1.2 人工智能的定义
到底什么是人工智能?
机器自己分析、思考、进化?
有多少“人工”,就有多少“智能”
艾伦 麦席森 图灵 图灵测试(The Turing test):将一个测试者(一个人)与被测试者(一台机器)隔开,由测试者通过一些装置(键盘等)向被测试者随意提问。进行多次测试后,如果有超过30%的测试者不能确定被测试者是人还是机器,那么这台机器就通过了测试,并被认为具有人类智能。
人工智能:高质量自动化过程,只要它能在人类关心的范畴高质量地完成作业就够了。
在一定的应用范畴提高自动化程度、降低错误率、或者能在错误率与人类相当的情况下极大地提高处理效率,给出的结果和我们期望由一个人来完成工作的结果很接近,就可以了。
1.2 强化学习的研究对象
本文探讨了强化学习在机器人智能提升中的核心作用,从监督学习和非监督学习的区别出发,聚焦于如何通过强化学习实现人脸识别和物体识别等任务,同时介绍了人工智能的多种定义和智能的层次。重点讲解了强化学习的研究对象,涉及遗传算法和深度神经网络的应用。
754

被折叠的 条评论
为什么被折叠?



