TLV数据格式及解析

最新推荐文章于 2025-10-27 18:27:32 发布

原创最新推荐文章于 2025-10-27 18:27:32 发布 · 4.1k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#数据分析

TLV数据格式同时被 2 个专栏收录

1 篇文章

订阅专栏

TLV数据分析解析

1 篇文章

订阅专栏

本文详细分析了TLV（Tag, Length, Value）数据格式，特别是在PBOC/EMV标准中的简化版。讲解了TLV中tag域的编码规则，包括单一数据与复合数据结构的区别，并提供了简单的解码伪代码。同时提到了Length域的编码，以及Value域的解码需要根据具体数据元决定。最后指出，通过这些知识可以构建一个TLV解码器。" 107782507,7530276,无缝升级openssh与openssl：不干扰旧版本,"['系统管理', '安全更新', 'Linux', '软件升级', 'openssh']

TLV数据格式

几乎所有的需要在卡片和终端之间传送的数据都是TLV格式的. PBOC文档里并没有对TLV编码细节做具体说明, 而EMV的手册里虽有叙述，但并不详细. 我下面就要很详细的分析TLV的编码格式并给出相应的TLV解码的伪代码.
TLV是tag, length和value的缩写.一个基本的数据元就包括上面三个域. Tag唯一标识该数据元, length是value域的长度. Value就是数据本身了. 举个例子, 下面是一个tlv格式的AID（应用标识符）字节串”9F0607A0000000031010”, 其中9F06是tag, 07是长度, A0000000031010就是AID本身的值了.
对于程序编写人员来说，我们关心的是，如果有类似上面这样的一串TLV编码的字节串从卡片传过来, 怎么样从中提取我们想要的数据. 这就牵扯出TLV解码的问题了.
其中BER-TLV编码是ISO定义一种规范, 然后到了PBOC/EMV里被简化了, 哪里被简化了呢?举一个例子, tag域在ISO里可以有多个字节, 而PBOC/EMV里规定只用前两个字节. 我下面要讲的TLV解码就是基于PBOC/EMV的简化版本.
首先看一下tag域是怎样编码的. Tag域占最多占两个字节. 编码规则如下面两幅图：

解释一下这两幅图. 第一个图是第一个字节的编码规则. b8和b7两位标识tag所属类别. 这个可以暂时不用理. b6决定当前的TLV数据是一个单一的数据和复合结构的数据. 复合的TLV是指value域里也包含一个或多个TLV, 类似嵌套的编码格式. b5~b1如果全为1，则说明这个tag下面还有一个子字节. 占两个字节, 否则tag占一个字节.
第二幅图是说明如果tag占用两个字节, 第二个字节的编码格式. B8决定tag是否还有后绪的字节存在，因为前面说过，PBOC/EMV里的tag最多占两个字节, 所以该位保持为0.
清楚了上面tag编码格式,可很容易写出tag域解码的代码了. 假设，终端接收到一人字节串，这个字节串保存在tlvData的字节数组里, 伪代码如下:
if ( (tlvData[i]&0x20) != 0x20)//单一结构
{
if ( (tlvData[i]&0x1f) == 0x1f)//tag两字节
{
tagIndex++;
//解析length域
//解析value域
}
else//tag单字节
{
//解析length域
//解析value域
}
}
else//复合结构
{
//复合结构可以考虑用递归的方法来实现.
}
Length域的编码比较简单,最多有四个字节, 如果第一个字节的最高位b8为0, b7~b1的值就是value域的长度. 如果b8为1, b7~b1的值指示了下面有几个子字节. 下面子字节的值就是value域的长度.
Value域的编码格式要根据具体的value所表示的数据元决定. 比如AID是由RID+PIX构成等. 这个不详述. 有了上面的知识，基本上可以写一个TLV解码器出来了。
一个字节有八位，一个数字或字母只有4位，两位数字或字母或一个数字一个字母代表一个字节。

代码解析如下

#include<stdio.h>
#include<string.h>
#include<error.h>
#include<malloc.h>


#define SDK_ERR -1
#define SDK_OK 1
#define SDK_PARA_ERR 0 //参数错误
typedef int s32;
typedef unsigned int u32;
typedef char u8;

/*
u8 main(int argc,char *argv[])
{
	char tlvdata[] = "9F0607A0000000031010";
	9F：1001 1111 b1~b5全为1因此tag域占两个字节  9F 06为tag域
	07：代表后面的数据是7个字节 A0000000031010
	Length域的编码比较简单,最多有四个字节, 如果第一个字节的最高位b8为0,
	b7~b1的值就是value域的长度. 如果b8为1, b7~b1的值指示了下面有几个子字节. 
	if((tlvdata[i] & 0x20) != 0x20)
	{
		printf("b6 = 0：单一数据\n");
		if((tlvdata[i] & 0x1f) == 0x1f)
		{
			printf("b5~b1全为1：tag占两个字节\n");
			tagindex++;
			//解析length域
			//解析value域
		}
	else
		{
			printf("tag 单字节\n");
			//解析length域
			//解析value域
		}
	}
	else
	{
		printf("b6 = 1：复合数据\n");
		//复合结构可以考虑用递归的方法来实现
	}
	
	
}
*/
s32 sdkParseTlvData(const u8 *tlvData, s32 tlvDataLen, const u8 *tag, u8 *outData, u32 *outDataLen);


/**
 * 解析TLV数据
 * @param tlvData tlv数据
 * @param tlvDataLen tlv数据长度
 * @param tag  tlv tag
 * @param outData 输入数据，tlv中的value
 * @param outDataLen tlv中的value的长度
 * @return SDK_OK or ERR
 */
s32 sdkParseTlvData(const u8 *tlvData, s32 tlvDataLen, const u8 *tag, u8 *outData, u32 *outDataLen)
{
    u32 index, tagLen, len, tlvLen;

    if (NULL == tlvData || NULL == tag || NULL == outData || NULL == outDataLen)
    {
        return SDK_PARA_ERR;
    }

    index = 0;
    if (0x1F == (tag[0] & 0x1F))
    {
        tagLen = 2;
    }
    else
    {
        tagLen = 1;
    }

    while (index < tlvDataLen)
    {
        if (0x1F == (tlvData[index] & 0x1F))
        {
            tlvLen = 2;
        }
        else
        {
            tlvLen = 1;
        }

        if (tlvData[index + tlvLen] > 127)
        {
            tlvLen++;
        }
        len = tlvData[index + tlvLen];
        tlvLen++;
        tlvLen += len;

        if (memcmp(tag, tlvData + index, (u32) tagLen))
        {
            index += tlvLen;
            continue;
        }
        else
        {
            memcpy(outData, tlvData + index + tlvLen - len, (u32) len);
            *outDataLen = len;
            return SDK_OK;
        }
    }
    return SDK_ERR;
}