| PyTorch | 1.10+ / 2.x | 动态图编程、TorchVision/TorchText、TorchServe部署、AMP混合精度训练

以下从 技术栈匹配、核心使用场景、项目落地经验、优势对比 四个维度，分享深度学习框架（TensorFlow/PyTorch/MXNet）的实战经验总结，可直接用于简历优化、项目阐述或技术交流：

框架	核心版本	核心技术栈	熟练度
PyTorch	1.10+ / 2.x	动态图编程、TorchVision/TorchText、TorchServe部署、AMP混合精度训练	精通（主导3+落地项目）
TensorFlow	2.x（Keras API）	静态图/动态图切换、TensorFlow Serving、TensorRT加速、TF-Lite移动端部署	熟练（2+项目实战）
MXNet	1.9+	Gluon API、分布式训练（Horovod）、MXNet ONNX导出	熟悉（1+项目落地）

计算机视觉（CV）：基于PyTorch 2.0+实现目标检测（YOLOv8微调）、图像分割（U-Net改进版），使用torch.nn.DataParallel/DistributedDataParallel实现多卡训练，单任务训练效率提升2倍；通过torch.cuda.amp混合精度训练，显存占用降低40%，训练速度提升1.5倍。
自然语言处理（NLP）：基于Hugging Face Transformers（PyTorch后端）微调BERT、LLaMA系列模型，实现文本分类、命名实体识别（NER）；使用torch.utils.data.Dataset自定义数据加载逻辑，解决非结构化文本数据的批量处理问题。
部署落地：通过TorchServe将CV/NLP模型封装为RESTful API，支持批量请求与动态扩缩容；导出ONNX格式后，结合TensorRT在GPU端推理， latency降低50%+。

结构化数据建模：使用Keras函数式API搭建Wide & Deep模型，处理用户推荐系统的离散特征（Embedding编码）与连续特征（归一化），模型AUC提升12%；通过tf.data.Dataset构建高效数据流水线，支持预取（prefetch）、批处理（batch），IO瓶颈降低30%。
移动端部署：将图像分类模型（MobileNetV3）通过TF-Lite量化（INT8），模型体积压缩75%，移动端推理速度提升2倍，满足嵌入式设备算力限制。
分布式训练：使用tf.distribute.MirroredStrategy实现多卡训练，无需手动管理设备，适配TensorFlow生态工具（TensorBoard可视化、ModelCheckpoint断点续训）。

推荐系统：基于MXNet Gluon实现DeepFM、NFM等模型，处理千万级用户-物品交互数据；利用MXNet的分布式Parameter Server，支持10+节点并行训练，训练周期从7天缩短至2天。
多模态任务：结合MXNet的NDArray（统一张量接口），实现图像-文本跨模态特征融合，通过mxnet.contrib.onnx.import_model导入ONNX模型，与PyTorch/TensorFlow生态互通。
边缘计算：将轻量化模型（如MobileNet）通过MXNet量化工具压缩后，部署到物联网设备，内存占用控制在50MB以内，推理延迟<100ms。

MXNet生态相对小众，部分第三方库支持不足（如NLP预训练模型较少），需手动适配；
分布式训练需配置mxnet.spawn或mxnet.launch，参数服务器节点与工作节点需同步配置；
Gluon动态图与静态图切换时，需注意模型保存格式（gluon.Block.save_parameters() vs mxnet.model.save_checkpoint()）。

训练优化：
- 数据流水线：PyTorch用torch.utils.data、TensorFlow用tf.data，避免IO阻塞（预取、批量处理、数据增强并行）；
- 显存/算力优化：混合精度训练（AMP）、梯度累积、模型并行（大模型）、张量并行（Transformer）；
- 可视化与监控：TensorBoard（PyTorch/TensorFlow均支持）、Weights & Biases（跨框架），实时监控损失、精度、显存占用。
部署优化：
- 模型压缩：量化（INT8/FP16）、剪枝、知识蒸馏，降低部署成本；
- 推理加速：GPU用TensorRT、CPU用OpenVINO/ONNX Runtime，边缘设备用TF-Lite/MXNet Lite；
- 服务化封装：TorchServe/TensorFlow Serving（容器化部署，支持负载均衡、版本管理）。
跨框架迁移：
- 模型导出：PyTorch/TensorFlow/MXNet均支持导出ONNX格式，实现跨框架复用；
- 代码迁移：核心差异在数据加载（Dataset类）、模型定义（层API）、训练循环（梯度更新逻辑），需逐模块适配。