python3，解析十六进制字节流为中文字符的方法

原创已于 2023-07-27 14:05:52 修改 · 2k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言

于 2020-11-16 20:48:29 首次发布

技术问题和解决同时被 2 个专栏收录

71 篇文章

订阅专栏

Linux(CentOS/Ubuntu)

23 篇文章

订阅专栏

本文主要探讨了在使用pydicom库读取DICOM影像时遇到的tag乱码问题。作者在尝试dcmdump和gdcmdump工具时，发现tag值显示不正常。通过研究，了解到这涉及到Python2和Python3中处理字符串和字节的差异。解决方案是使用`encode('raw_unicode_escape').decode('GB18030')`方法将乱码转换为正确内容。示例代码展示了如何正确解析StudyDescription和BodyPartExamined的tag。

本文由Markdown语法编辑器编辑完成。

1. 问题提出

近期在处理一家医院的DR影像时，发现用pydicom读取出来的相关tag（BodyPartExamined, SeriesDescription等）是乱码，而由于后续还需要基于这些tag的值进行判断。因此，当务之急就是需要把这些乱码的值，想办法解析为正确的内容。

通过本机的dcmdump或gdcmdump, 在显示本图的相关信息时，显示出来都不正常。或者是以省略号显示，或是以乱码显示。

在这里插入图片描述
从图中可以看到, 这个影像的SeriesDescription, 用dcmtk自带的命令行工具dcmdump来查看DICOM TAG的信息时, 显示出来的字段是乱码.

通过python的pydicom包, 读取出来的SeriesDescription和BodyPartExamined, 也都是乱码.

2. 问题调研与解决

这里其实涉及到了python2和python3, 在处理字符串和字节时的一些不同.
后来通过查询网络, 在https://cloud.tencent.com/developer/article/1564777 得到了启发.

在这里插入图片描述
备注，如果用unicode_escape, 仍然是乱码的话，可以替换成: raw_unicode_escape

import pydicom
ds = pydicom.read_file('path/to/dcm')
print(ds.StudyDescription)
# 'Êý×Ö»¯ÉãÓ°(DR)/Ë«ÊÖ+Ë«Ï¥'
print(ds.StudyDescription.encode('raw_unicode_escape').decode('GB18030'))
# '数字化摄影(DR)/双手+双膝'