python3,解析十六进制字节流为中文字符的方法

本文主要探讨了在使用pydicom库读取DICOM影像时遇到的tag乱码问题。作者在尝试dcmdump和gdcmdump工具时,发现tag值显示不正常。通过研究,了解到这涉及到Python2和Python3中处理字符串和字节的差异。解决方案是使用`encode('raw_unicode_escape').decode('GB18030')`方法将乱码转换为正确内容。示例代码展示了如何正确解析StudyDescription和BodyPartExamined的tag。

本文由Markdown语法编辑器编辑完成。

1. 问题提出

近期在处理一家医院的DR影像时,发现用pydicom读取出来的相关tag(BodyPartExamined, SeriesDescription等)是乱码,而由于后续还需要基于这些tag的值进行判断。因此,当务之急就是需要把这些乱码的值,想办法解析为正确的内容。

通过本机的dcmdump或gdcmdump, 在显示本图的相关信息时,显示出来都不正常。或者是以省略号显示,或是以乱码显示。

在这里插入图片描述
从图中可以看到, 这个影像的SeriesDescription, 用dcmtk自带的命令行工具dcmdump来查看DICOM TAG的信息时, 显示出来的字段是乱码.
在这里插入图片描述
通过python的pydicom包, 读取出来的SeriesDescription和BodyPartExamined, 也都是乱码.

2. 问题调研与解决

这里其实涉及到了python2和python3, 在处理字符串和字节时的一些不同.
后来通过查询网络, 在https://cloud.tencent.com/developer/article/1564777 得到了启发.

在这里插入图片描述
备注,如果用unicode_escape, 仍然是乱码的话,可以替换成: raw_unicode_escape

import pydicom
ds = pydicom.read_file('path/to/dcm')
print(ds.StudyDescription)
# 'Êý×Ö»¯ÉãÓ°(DR)/Ë«ÊÖ+˫ϥ'
print(ds.StudyDescription.encode('raw_unicode_escape').decode('GB18030'))
# '数字化摄影(DR)/双手+双膝'

相关链接:

  1. 关于python3的编码:https://cloud.tencent.com/developer/article/1564777
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

inter_peng

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值