本文由Markdown语法编辑器编辑完成。
1. 问题提出
近期在处理一家医院的DR影像时,发现用pydicom读取出来的相关tag(BodyPartExamined, SeriesDescription等)是乱码,而由于后续还需要基于这些tag的值进行判断。因此,当务之急就是需要把这些乱码的值,想办法解析为正确的内容。
通过本机的dcmdump或gdcmdump, 在显示本图的相关信息时,显示出来都不正常。或者是以省略号显示,或是以乱码显示。
从图中可以看到, 这个影像的SeriesDescription, 用dcmtk自带的命令行工具dcmdump来查看DICOM TAG的信息时, 显示出来的字段是乱码.
通过python的pydicom包, 读取出来的SeriesDescription和BodyPartExamined, 也都是乱码.
2. 问题调研与解决
这里其实涉及到了python2和python3, 在处理字符串和字节时的一些不同.
后来通过查询网络, 在https://cloud.tencent.com/developer/article/1564777 得到了启发.
备注,如果用unicode_escape, 仍然是乱码的话,可以替换成: raw_unicode_escape
import pydicom
ds = pydicom.read_file('path/to/dcm')
print(ds.StudyDescription)
# 'Êý×Ö»¯ÉãÓ°(DR)/Ë«ÊÖ+˫ϥ'
print(ds.StudyDescription.encode('raw_unicode_escape').decode('GB18030'))
# '数字化摄影(DR)/双手+双膝'
相关链接:
- 关于python3的编码:https://cloud.tencent.com/developer/article/1564777