CH10_隐马尔科夫模型及其实现(前向算法&后向算法)

最新推荐文章于 2025-02-01 15:24:54 发布

原创最新推荐文章于 2025-02-01 15:24:54 发布 · 置顶 · 320 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #统计学

统计学习方法专栏收录该内容

10 篇文章

订阅专栏

1. 隐马尔科夫模型的定义

隐马尔可夫模型是关于时序的概率模型，描述一个有隐藏的马尔科夫链随机生成不可观测的状态随机序列，再由各个状态生成一个观测从而产生观测随机序列的过程。

1.1 组成

所有可能状态的集合：
$Q=\{ q_1,q_2,……q_N \} (N是可能的状态的集合)$
所有可能观的集合
$V = \{ v_1,v_2,……v_N \} (M是可能的观测数)$
I: 长度为T的状态序列
O: 对应的观测序列
$I=(i_1,i_2,……,i_T);O=(o_1,o_2,……，o_T)$

状态转移概率分布
$A:状态转移矩阵：A=[a_{ij}]_{N*N} \\ a_ij = P(i_{T+1} = q_j | i_T = q_i ), i=1,2,……N； j= 1,2，……N$
t时刻处于咋混给他qi的条件下在时刻他+转移到状态qj的概率

观测概率分布
$B= [b_j(k)]_{N*N} \\ b_j(k) = P(o_t = v_k| i_t=q_j),k=1,2,……M;j=1,2,……N$
在t时刻处于状态qj的条件下生成观测vk的概率

初始概率分布：
$\pi = (\pi_i) \\ \pi_i = P(i_1 = q_i),i=1,2,……N$
t=1时刻处于状态qi的状态

隐马尔可夫模型的三元符号表示：
$\lambda = (A,B,\pi)$

隐马尔可夫的两个假设条件：

隐马尔可夫链t时刻的状态只与t-1时刻的状态有关，与其他时刻的状态及观测无关；
任意时刻的观测只依赖于该时刻的马尔可夫链的状态，与其他观测及状态无关。

2.隐马尔科夫要解决的问题：

识别问题（在给定参数下计算样本出现的概率）：
$给定\lambda = (A,B,\pi) ，计算其产生观测序列O= [o_1,o_2……o_n]的概率P(O|\lambda)$
学习问题（由观测样本得到模型参数）：
$[o_1,o_2……o_n] ，调整模型\lambda = (A,B,\pi) 参数，使得该序列出现的概率P(O|\lambda)最大$
解码问题（由观测样本得到隐状态）：
$[o_1,o_2……o_n] 和模型\lambda = (A,B,\pi) ，找到与此观测序列最匹配的状态序列$

3.隐马尔科夫模型的例子

盒子和球模型：　假设有4个盒子，每个盒子里都装有红、白两种颜色的球，盒子里的红、白球数由下表给出：


盒子编号	1	2	3	4
红球数	5	3	6	4
白球数	5	7	4	2

按照下列方法抽球，产生一个球的颜色的观测序列

以等概率随机取一个盒子，再从这个盒子随机取一个球，记录其颜色，然后放回；
然后从当前盒子随机转移到下一个盒子，规则是：如果当前盒子是盒子1，那么下一盒子一定是盒子2；如果当前是盒子2或3，那么分别以概率0.4和0.6转移到左边或右边的盒子；如果当前是盒子4，那么各以0.5的概率停留在盒子4或转移到盒子3；
确定转移的盒子后，再从这个盒子里随机抽出1个球，记录其颜色，放回；
如此重复5次，得到一个球的颜色的观测序列： O ={红，红，白，白，红 }

在这个过程中，观察者只能观测到球的颜色的序列，观测不到球是从哪个盒子取出的，即观测不到盒子的序列。在这个例子中有两个随机序列，一个是盒子的序列（状态序列），一个是球的颜色的观测序列（观测序列）。前者是隐藏的，只有后者是可观测的。这是一个隐马尔可夫模型的例子。根据所给条件，可以明确状态集合、观测集合、序列长度以及模型的三要素。

盒子对应状态，状态集合是：
$Q= {盒子1,盒子2,盒子3,盒子4}，N=4$
球的颜色对应观测，观测的集合是：
$V= {红，白}，M=2$
状态序列和观测序列长度T= 5

初始概率分布为：
$\pi = (0.25,0.25,0.25,0.25)^T$

状态转移概率分布为：
$\begin{bmatrix} 0&1&0&0 \\ 0.4&0&0.6&0 \\ 0&0.4&0&0.6 \\ 0&0&0.5&0.5 \\ \end{bmatrix}$

观测概率分布为：
$\begin{bmatrix} 0.5&0.5 \\ 0.3&0.7 \\ 0.6&0.4 \\ 0.8&0.2\\ \end{bmatrix}$

4.代码实现

4.1 隐马尔可夫数据生成


import breeze.linalg.{DenseMatrix, DenseVector, sum}
import scala.collection.mutable.ListBuffer

/**
 *
 * @param pi                    隐状态初始概率分布
 * @param stateTransitionMatrix 状态转移矩阵
 * @param confusionMatrix       观测状态生成矩阵
 */
case class hmm(
                pi: DenseVector[Double],
                stateTransitionMatrix: DenseMatrix[Double],
                confusionMatrix: DenseMatrix[Double]
              ) {
  // 状态集合个数
  val n: Int = stateTransitionMatrix.cols

  // 根据给定的概率分布随机返回数据
  def getDistData(dist: DenseVector[Double]): Int = {
    var initState: Int = 0
    for (i <- 0 until dist.length) {
      if (math.random <= dist.slice(0, i).toArray.sum) {
        initState = i
        return initState
      }
    }
    initState
  }

  //   根据给定的参数生成观测序列
  def generate(t: Int): Array[Int] = {
    //  require(true)
    // 根据初试概览向量随机生成初始状态
    val initState: Int = getDistData(pi)
    // 生成第一个观测
    val inner = confusionMatrix(initState, ::).inner
    val initData: Int = getDistData(inner)

    //生成余下的状态和序列
    val datas = new ListBuffer[Int]
    datas.append(initData)
    for (i <- 1 until t) {
      val st = getDistData(stateTransitionMatrix(initState, ::).inner)
      datas append getDistData(confusionMatrix(st, ::).inner)
    }
  }

}

4.2 前向算法

步骤：

计算初值
$\alpha_1(i) = \pi_ib_i(o_1) ,i =1,2,……N$
递推对t=1，2，……T-1
$\alpha_{t+1}(i) = [\sum_{j=1}^N \alpha_t(j)a_{ji}]b_i(o_{t+1}) ,i=1,2,……N$
终止计算
$P(O|\lambda) = \sum_{i=1}^N \alpha_T(i)$

  /**
   * 前向算法
   *
   * @param o 观测序列                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              观测序列
   * @return 产生观测序列的概率
   */
  def forwardAlgorithm(o: DenseVector[Int]) = {

    // 计算初值   α1(i)=πi∗b(i)(𝑂(1))
    var alphati = confusionMatrix(::, o(0)) * pi

    //α(t+1)(i)= [∑ α(t)(j) a(j)(i)]*b(i)(o(t+1))
    for (t <- 1 until o.length) {

      val bit = confusionMatrix(::, o(t))
      val dlt = new ListBuffer[Double]()
      for (j <- 0 until n) {
        val aji = stateTransitionMatrix(::, j)
        dlt.append(sum(alphati * aji))
      }

      alphati = DenseVector(dlt.toArray) * bit
    }

    // step3 终止计算(概率)：𝑃(𝑂|𝜆)=∑ a(t)(i)
    sum(alphati)
  }

4.3 后向算法

步骤：
1.
$\beta_T(i) =1 ,i=1,2,……N$
2. 对t=T-1,T-2,……1
$\beta_t(i)=\sum_{j=1}^N a_{ij}b_j(o_{t+1})\beta_{t+1}(j) ,i=1,2,……N$
3. 终止计算
$P(O|\lambda) = \sum_{i=1}^N \pi_ib_i(o_1)\beta_1(i)$


  /**
   * 后向算法
   *
   * @param o 观测序列                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              观测序列
   * @return 产生观测序列的概率
   */
  def backwardAlgorithm(o: DenseVector[Int]) = {

    //   βT(i) = 1, i=1,2,……N
    var betati: DenseVector[Double] = DenseVector(Array.fill(n)(1.0))

    //    βt(i) = ∑ a(i)(j)b(j)(o(t+1))β(t+1)(j)
    for (t <- 1 until o.length reverse) {
      println("betati:" + betati)

      val beat = new ListBuffer[Double]()
      for (i <- 0 until n) {
        val aij = stateTransitionMatrix(i, ::).inner
        val bjT = confusionMatrix(::, o(t))
        sum (aij * bjT * betati )
        beat.append(  sum (aij * bjT * betati ))
      }
      betati = DenseVector(beat.toArray)
    }
    sum (pi * confusionMatrix(::, o(0)) * betati)

  }

def main(args: Array[String]): Unit = {
    val pi = DenseVector(Array(0.2, 0.4, 0.4)) //pi

    val stateTransitionMatrix = DenseMatrix((0.5, 0.2, 0.3), (0.3, 0.5, 0.2), (0.2, 0.3, 0.5)) //A

    val confusionMatrix = DenseMatrix((0.5, 0.5), (0.4, 0.6), (0.7, 0.3)) //B

    val o = DenseVector(Array(0, 1, 0, 1)) //O

    val hmmModel = hmm(pi, stateTransitionMatrix, confusionMatrix)

    val forward = hmmModel.forwardAlgorithm(o)
    val backward = hmmModel.backwardAlgorithm(o)
    println(forward) //0.026862016
    println(backward) //0.026862016
 
 }