深度学习之-Qlearning

最新推荐文章于 2025-07-10 10:13:17 发布

原创最新推荐文章于 2025-07-10 10:13:17 发布 · 911 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习机器学习增强学习

机器学习专栏收录该内容

12 篇文章

订阅专栏

1.前人栽树

1.1 知乎上这篇文章关于小鸟飞的例子讲得很到位，先睹为快：https://www.zhihu.com/question/26408259

1.2 csdn上另一篇大神的翻译，走迷宫的例子，http://blog.youkuaiyun.com/itplus/article/details/9361915

1.3 试玩一把，理解会更加深刻的哦：https://enhuiz.github.io/flappybird-ql/

2.我的笨功夫

2.1 再理解小鸟飞例子

小鸟飞例子-建模关键点：

增强学习有三个要素：状态S，动作A，奖惩R的策略Q

S:d(x,y)表示小鸟离下一根柱子的距离和高度差

A:飞一下或者不飞，两种可选动作

Q（S+A->R）为一个策略表，也称之为Q，其实就是我们最终想学到的东西。就是在某状态S下采用不同动作A 可以得到的奖惩R。

如何训练：

Initialize Q arbitrarily //随机初始化Q值 (撞地上或者柱子上初始化为负值)
Repeat (for each episode): //每一次游戏，从小鸟出生到死亡是一个episode 
         Initialize S //小鸟刚开始飞，S为初始位置的状态
        Repeat (for each step of episode): 
         。。。根据当前Q和位置S，使用一种策略，得到动作A //这个策略可以是ε-greedy等 
        做了动作A，小鸟到达新的位置S'，并获得奖励R //奖励可以是1，50或者-1000 
        Q(S,A) ← (1-α)*Q(S,A) + α*[R + γ*maxQ(S',a)] //在Q中更新S 
        S ← S' 
until S is terminal //即到      小鸟死亡为止

关键的这一步怎么理解呢？
Q(S,A) ← (1-α)*Q(S,A)+ α*[R + γ*maxQ(S',a)]

1 当处于S状态采取A策略后，根据S'我们可以得到R, 那么这个R应该跟新到Q(S,A)中,我们可能会这样做：

Q(S,A) ← (1-α)*Q(S,A) + α*R，其中α是0~1之间的一个数，我们称之为学习率。

2 上面的公式太短视，我们更新Q(S,A) 时是不是要考虑一下，通过步骤A走到下一个状态S'的收益呢？

Q(S,A) ← (1-α)*Q(S,A) + α*[R + γ*Q(S',？)]

其中γ是一个0~1的小数，表示我们关注长期（下一步）收益的程度，代表对历史经验的重视程度。

3 Q(S',？)表示状态S'的收益，Q(S',？)有飞和不飞2个值，我们既然知道奖惩，肯定是采

用Q(S',？)中最大的那一种操作于是我们得到

Q(S,A) ← (1-α)*Q(S,A)+ α*[R + γ*maxQ(S',a)]

3.代码片段

基于走迷宫例子的讲解，ql的简单python实现版本

# -*- coding: utf-8 -*-
import  xdrlib ,sys
import input
import numpy as np
import xlrd
import scipy as sp
def open_excel(file):
    try:
        data = xlrd.open_workbook(file)
        return data
    except Exception,e:
        print str(e)

#根据索引获取Excel表格中的数据   参数:file：Excel文件路径     colnameindex：表头列名所在行的所以  ，by_index：表的索引
def excel_table_byindex(file,colnameindex=0,by_index=0):
    data = open_excel(file)
    table = data.sheets()[by_index]
    nrows = table.nrows #行数
    ncols = table.ncols #列数
    colnames =  table.row_values(colnameindex) #某一行数据


    list =[]
    for rownum in range(0,nrows):

         row = table.row_values(rownum)
         if row:
             app = []
             for i in range(0,len(colnames),1):
                 app.append(row[i])
             list.append(app)
    list = np.array(list)
    return list

#根据名称获取Excel表格中的数据   参数:file：Excel文件路径     colnameindex：表头列名所在行的所以  ，by_name：Sheet1名称
def excel_table_byname(file,colnameindex=0,by_name=u'Sheet1'):
    data = open_excel(file)
    table = data.sheet_by_name(by_name)
    nrows = table.nrows #行数
    colnames =  table.row_values(colnameindex) #某一行数据
    list =[]
    for rownum in range(0,nrows):
         row = table.row_values(rownum)
         if row:
             app = {}
             for i in range(len(colnames)):
                app[colnames[i]] = row[i]
             list.append(app)
    list = np.array(list)
    return list

def Reward(start,stat_j,end,forword_step,a,r,Q,reward): #start 为当前位置,action_j为下一步位置,forword_step为向前看的步数,a和r是学习率参数,a控制，r控制未来收益
    #if forword_step==1 or start==stat_j: #如果向前看的步数为0,则退出,返回当前的值就可以了,目光和短浅,不会向前看
    #    return a*reward+(1-a)*R[start][stat_j]
    #向前看一步时,下一步状态是stat_j
    reward = reward + r*max(Q[stat_j])
    #next_step = np.argwhere(R[stat_j] == max(R[stat_j]))[0][0]

    #if start==next_step or next_step==end:
        #return reward +  R[start][stat_j]
    #Reward(stat_j, next_step, end,forword_step-1, a, r*r, R, Q, reward)
    #return r*reward+R[start][stat_j]
    return reward

if __name__=="__main__":
    file = './data/input.xlsx'
    R = input.excel_table_byindex(file) #R 是R矩阵
    mapsize = R.shape
    Q = np.zeros((mapsize[0], mapsize[1]))#Q函数我们的目标
    #Q = np.random.random((mapsize[0], mapsize[1]))#Q函数我们的目标
    r=0.8 ; a=0 #r是对未来的看重程度,r越大,越重视将来
    end=5 #终止状态为6,只要虫子走到状态6,认为该游戏结束
    R[end][end]=100
    forward_step=2 #每次向前看3步
    episode=1000
    for i in range(1,episode,1): #一共迭代episode次,
        #每一次训练随机产生一个位置
        start = np.random.randint(0, 6)
        if start==end:
            Q[start][end]=R[start][end]
            continue
        print "i="+str(i)
        print "start="+str(start)
        reward = -1
        while start!=end : #虫子没有走到终止状态
            road=np.zeros((mapsize[1],1))-1 #处于状态start时,可走路径的收益存入到road中
            for j in range(0,len(R[start]),1): #遍历当下可走的路径
                if R[start][j]!=-1: #j这条路可走,更新Q函数
                    reward = R[start][j]
                    road[j] =Reward(start,j,end,forward_step,a,r,Q,reward) #start 为当前位置,j为下一步位置,2为向前看的步数
            rdm = np.random.rand(road.shape[0],road.shape[1]) #产生一个随机数组
            road = road * rdm  #在可走的道路里,随机走
            candidate = np.argwhere(road == max(road)) #走可能性最大的
            reward = max(road)#取最大路径上的收益
            next_step = candidate[np.random.randint(0, candidate.shape[0])][0] #如果有多个最大的,随机选择一个最大的来走
            Q[start][next_step]=reward
            start=next_step #更新当前的状态
        print Q.astype(int)