A Generalized Deep Learning Approach for Evaluating Secondary Pulmonary Tuberculosis...论文总结

提出了一种深度学习算法,能自动区分肺结核与非肺结核及正常肺部CT图像,效果媲美专家水平,算法可在移动端CT设备上运行,并已共享数据与模型以供医疗界使用。
 
A Generalized Deep Learning Approach for Evaluating Secondary Pulmonary Tuberculosis on Chest Computed Tomography
 

要解决的问题:

结核型肺炎 Pulmonary Tuberculosis PTB and 非结核型肺炎non-tuberculous(non-TB )的差异是大的,但依靠临床和放射科来判断肺结核的疾病类型仍然很困难,成本高,速度慢。因此,如何应用深度学习技术审核CT图像,协助医生来进行诊断,区别PTB和TB,以及正常的肺部CT图像至关重要。
 

贡献:

1.提出了一个新颖的算法,可以自动化的发现、预测 secondary PTB从non-TB 和正常病人的CT图像中。并且效果非常显著,和业界专家们的标注基本持平。
2.他们的算法能够被嵌入到移动端的、CT诊断等设备中进行使用
3.他们共享CT数据和训练好的算法,去协助其他医院机构使用、进一步改进,扩展
 

方法:

网络:pre-trained Inception-Res-net-v2(训练好的ImageNet迁移过来)
nception-ResNet-v2是Inception V3模型根据ResNet网络变化而来的一种图像分类的算法。
在最后的FC layer之前, 使用了4个平行的FC(4096,2048,1024,512),相同的输入平行放置。
由于PTB和non-TB肺炎的切片数量不均衡,在预测类别时,修改类别权重,以此来平衡每个类别。 
采用类别权重增加异常切片的数量,使得算法可以学习到更多的潜在的特征。
之后选择三个具有不同类别权重的 Inception-Res-net-v2模型。 在这三个模型上使用非加权平均方法对分片级别的概率进行合并。
 
Imgs: 256*256   thickness:0.625-8 mm
 
 

实验:

WCPR Dataset(HRCT 高分辨率CT)
1,124 patients (285,647 total slices including 217,387 HRCT slices)
439 PTB patients (124,680 total slices including 99,217 HRCT slices),
484 non-TB pneumonia patients (116,070 total slices including 83,466 HRCT slices)
201 normal patients (44,897 total slices including 34,704 HRCT slices)
 
 
文章《A Deep Learning Approach for Generalized Speech Animation》探讨了如何利用深度学习方法,从语音信号生成逼真且具有语义一致性的面部动画。其工程实现流程可以分为以下几个主要阶段: ### 数据预处理 该流程的第一步是准备和处理数据。文章使用了大规模的语音-面部动作数据集(如GRID、TCD-TIMIT等),这些数据集包含说话者的面部视频和对应的语音信号。数据预处理包括: - **语音特征提取**:使用标准的语音处理技术(如梅尔频率倒谱系数MFCCs、梅尔频谱等)提取语音特征。 - **面部关键点提取**:通过面部检测和关键点定位工具(如OpenFace)提取面部关键点运动数据。 - **同步处理**:确保语音和面部动作在时间上精确对齐。 ### 模型架构设计 文章提出了一种基于编码器-解码器结构的深度神经网络模型,用于从语音特征预测面部动作。其模型主要包括: - **语音编码器**:采用卷积神经网络(CNN)或循环神经网络(RNN)来编码语音特征,提取高层语音表示。 - **动作解码器**:使用RNN或Transformer架构来解码语音特征,并生成对应的面部动作序列。 - **注意力机制**:引入注意力机制以增强语音与面部动作之间的对齐能力,提升生成动作的自然度和语义一致性。 ### 模型训练 在训练阶段,模型通过最小化预测面部动作与真实面部动作之间的误差进行优化。训练过程包括: - **损失函数**:使用均方误差(MSE)作为主要损失函数,衡量预测动作与真实动作之间的差异。 - **数据增强**:通过语音扰动、时间拉伸等方式增强数据,提高模型泛化能力。 - **优化器**:通常采用Adam优化器进行训练,学习率和批量大小根据具体实验调整。 ### 模型评估 在模型训练完成后,需要对其进行评估,以验证其生成面部动画的质量。评估方法包括: - **客观评估**:计算预测动作与真实动作之间的均方误差、动态时间规整(DTW)距离等指标。 - **主观评估**:通过用户研究,评估生成动画的自然度、语义一致性以及与语音的同步性。 ### 应用部署 在模型训练和评估完成后,可以将其部署到实际应用中,例如虚拟助手、游戏NPC、视频会议系统等。部署过程可能包括: - **模型压缩**:通过量化、剪枝等技术减小模型规模,提高推理效率。 - **实时推理**:优化模型推理速度,确保在实际应用中能够实时生成面部动画。 ```python # 示例代码:语音特征提取与模型预测 import librosa import numpy as np import tensorflow as tf # 加载语音文件 audio_path = "example_audio.wav" audio, sr = librosa.load(audio_path, sr=16000) # 提取梅尔频谱 mel_spectrogram = librosa.feature.melspectrogram(y=audio, sr=sr, n_mels=80) log_mel_spectrogram = np.log(mel_spectrogram + 1e-9) # 加载训练好的模型 model = tf.keras.models.load_model("speech_to_animation_model.h5") # 输入模型并进行预测 input_data = np.expand_dims(log_mel_spectrogram, axis=0) # 添加batch维度 predicted_landmarks = model.predict(input_data) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值