LWC528476501-优快云博客

原创 Baichuan-M2论文精读（下）- 数据与训练、评估、推理与优化、结论、限制与未来工作

Baichuan-M2论文精读（下）- 数据与训练、评估、推理与优化、结论、限制与未来工作

2025-10-14 18:00:00 1845

原创 Baichuan-M2论文精读（上）-摘要、验证系统

本文提出Baichuan-M2医疗大模型系统，通过创新的动态验证框架解决了医学LLM在静态基准测试与实际临床应用的性能差距问题。该系统包含两大核心组件：基于去标识化病历的高保真患者模拟器，能生成逼真临床场景；以及临床评分标准生成器，可动态构建多维评估指标。在此基础上开发的320亿参数模型采用改进的GRPO算法进行多阶段强化学习训练，在HealthBench基准测试中超越多数开源和闭源模型，仅次于GPT-5。研究表明，这种强调动态交互的验证系统对提升模型临床适用性具有关键作用，为医疗AI发展提供了新范式。

2025-10-11 13:30:00 933

原创 Baichuan-M2 论文总结

Baichuan-M2研究摘要：论文提出新型动态验证框架，构建320亿参数医疗增强推理模型。核心创新包括：1）患者模拟器与临床评分标准生成器组成的交互式强化学习系统；2）三阶段训练流程（中期训练、SFT、RL），采用医疗/通用/数学语料混合训练；3）基于GRPO算法的多阶段RL优化。评测显示，该模型在医疗领域表现优于主流闭源模型，在困难任务中提升显著，同时保持通用能力。不足在于边缘场景的响应稳定性及工具调用能力待优化。研究为医疗AI提供了可扩展的验证框架和训练范式。

2025-10-10 13:15:00 786

原创 Qwen3 技术报告

Qwen3技术报告，包含创新点、训练流程、训练数据和评测结果

2025-07-01 23:47:05 947

原创 DeepSeek-R1部署

DeepSeek-R1部署

2025-03-20 18:32:22 711

原创 DeepSeek-R1论文总结与翻译

DeepSeek-R1论文总结与翻译

2025-03-18 19:00:28 918

原创 ModuleNotFoundError: No module named ‘train.tuner‘

错误：ModuleNotFoundError: No module named 'train.tuner';原因：py文件名称和文件夹名称重名（有一个文件名叫train.py，还有一个文件名叫train)修改：修改文件名及其引用（或修改文件夹名称及其引用）

2024-10-28 17:31:02 236

原创服务器上使用jupyter notebook时，不显示虚拟环境

【代码】服务器上使用jupyter notebook时，不显示虚拟环境。

2024-09-04 18:25:31 231

原创 json的load/loads/dump/dumps

转换数据格式以finetuning glm时，发现对json的load、loads、dump、dumps不太熟悉，特此记录。json.load() 传入文件路径，用于将整个文件内容转换为python对象。json.loads()需传入字符串,用于将字符串转换为python对象。json.dumps()将python对象保存为json字符串。json.dump()将python对象一次写入json文件。

2024-07-17 19:04:09 557

原创 pip和conda下载包到本地并安装

pip download -d 保存路径 nvidia-tensorflow[horovod]==1.15.2 -i https://pypi.tuna.tsinghua.edu.cn/simple。pip download -d 保存路径 nvidia-pyindex==1.0.9 -i https://pypi.tuna.tsinghua.edu.cn/simple。pip install --no-index --find-links=存储包的文件夹 -r requirements.txt。

2024-06-26 18:39:15 1258

原创 YOLOv10: Real-Time End-to-End Object Detection

它能当作高效的基础构建块，例如，嵌入在ELAN结构(图3(b)).然后，我们提倡采用一种秩导向的块分配策略，以在保持竞争能力的同时达到最佳效率。Yolos 对非最大抑制（NMS）的依赖阻碍了端到端部署，并对推理延迟产生了不利影响,此外，YOLOs 中各组件的设计缺乏全面、彻底的检查，导致了明显的计算冗余，限制了模型的能力。然而，它显示出较高的计算复杂度和内存占用。为了验证改进的监督对齐，训练后统计了一对多结果的前1/5/10与一对一匹结果匹配的数量，如图2(b)所示，在一致性匹配度量下，对齐有了提升。

2024-06-25 09:26:43 1461 1

LWC528476501的专栏