1.语音数据转换
  语音信号是模拟波形,通过IP方式来传输语音,不管是实时应用业务还是非实时应用业务。
首先要对语音信号进行模拟数据转换。(就是对模拟语音信号进行8位或6位的量化)
然后送到缓冲存储区中,缓冲器的大小可以根据延迟和编码的要求选择,(许多低比特率的编码器是采取以帧为单位进行编码,典型帧长为10-30ms。
考虑传输过程中的代价.
语音包通常由60,120,或240ms的语音数据组成)

数字化:使用各种语音编码器方案来实现,目前采用语音编码标准主要有ITU-T G.711
源和目的地的语音编码器必须实现相同的算法,这样目的地的语音设备才可以还原模拟语音信号。

2.原数据到IP转换
语音信号进行数字编码,下一步就是对语音包以特定的帧长进行压缩编码。
大部份编码器都有特定的帧长,若一个编码器使用15ms的帧,则把从第一次来的60ms的包分成4帧,并按顺序进行编码。每个帧合120个语音样点(抽样率为8kHz)编码后,将4个压缩的帧合成一个压缩的语音包送入网络处理器,网络处理器为语音添加包头, 时标和其它信息后通过网络传送到另一端点。
语音网络简单地建立通信端点之间的物理连接(一条线路),并在端点之间传输编码的信号。
IP网络不像电路交换网络,它不形成连接,它要求把数据放在可变长的数据报或分组中,然后给每个数据报附带寻址和控制信息,并通过网络发送。一站一站地转发到目的地。

3.传送
  在这个通道中,全部网络被看成一个从输入端接收语音包,然后在一定时间(t)内将其传送到网络输出端。
t可以在某全网范围内变化,反映了网络传输中的抖动。网络中的同间节点检查每个IP数据附带的寻址信息,并使用这个信息把该数据报转发到目的地路径上的下一站。
网络链路可以是支持IP数据流的任何拓扑结构或访问方法。

4.IP包-数据的转换
  目的地VOIP设备接收这个IP数据并开始处理。
网络级提供一个可变长的缓冲器,用来调节网络产生的抖动,该缓冲器可容纳许多语音包,用户可以选择缓冲器的大小。
小的缓冲器产生延迟较小,但不能调节大的抖动。
其次×××将经编码的语音包解压缩后产生新的语音包,这个模块可以按帧进行操作,完全和×××的长度相同。
若帧长为15ms是60ms的语音包被分成4帧,然后它们被解码还原成60ms的语音数据流送入解码缓冲器,
在数据报的处理过程中,去掉寻址和控制信息,保留原始的原数据,然后把这个原数据提供给×××。
 
5.数字语音还原为模拟语音
  播放驱动器将缓冲器中的语音样点(480个)取出送入声卡,通过扬声器按预定的频率(例如8kHZ)播出。

简单来说:
         语音信号在IP网络上传送要经过模拟信号到数字信号转换--数字语音封装成IP分组--IP分组通过网络的传送--IP分组的解包和数字语音还原到模拟信号等过程。