PediaBench: A Comprehensive Chinese Pediatric Dataset for Benchmarking Large Language Models

PediaBench: 中国儿科数据集评估LLM

本文是LLM系列文章,针对《PediaBench: A Comprehensive Chinese Pediatric Dataset for Benchmarking Large Language Models》的翻译。

PediaBench:用于大型语言模型基准测试的中国儿科综合数据集

摘要

大型语言模型(LLM)在医学领域的出现强调了对标准数据集的迫切需求,以评估其问答(QA)性能。尽管已经有几个用于医疗质量保证的基准数据集,但它们要么涵盖了不同部门的常识,要么特定于另一个部门而不是儿科。此外,其中一些仅限于客观问题,并不衡量LLM的生成能力。因此,他们无法全面评估儿科LLMs的QA能力。为了填补这一空白,我们构建了PediaBench,这是第一个用于LLM评估的中国儿科数据集。具体来说,它包含4565个客观问题和1632个主观问题,涉及12个儿科疾病组。它采用基于不同难度水平的综合评分标准,全面评估LLM在指令跟随、知识理解、临床病例分析等方面的熟练程度。最后,我们在20个开源和商业LLM上进行了广泛的实验,验证了PediaBench的有效性。通过对实验结果的深入分析,我们深入了解了LLMs在中国背景下回答儿科问题的能力,并强调了它们在进一步改进方面的局限性。我们的代码和数据发布在https://github/ACMISLab/PediaBench上。

1 引言

2 相关工作

3 PediaBench数据集

4 实验

5 结论

本文介绍了PediaBench,这是一个全面的中国基准数据集,包含12个儿科疾病组,用于评估LLM的QA能力。具体来说,

# 分析 TARGET 数据集 TARGET(Therapeutically Applicable Research to Generate Effective Treatments)是美国国家癌症研究所(NCI)发起的一项专注于**儿童和青年期癌症**的大型基因组学研究项目。其目标是通过高通量测序技术揭示儿科癌症的分子机制,发现可靶向治疗的遗传变异。 --- ## ✅ 一、TARGET 数据集概览 | 项目 | 说明 | |------|------| | 英文全称 | Therapeutically Applicable Research to Generate Effective Treatments | | 启动时间 | 2009 年 | | 主要人群 | 儿童、青少年及年轻成人(Pediatric and Young Adult Cancers) | | 数据类型 | 基因组、转录组、表观组、临床数据 | | 癌症类型 | 急性髓系白血病(AML)、肾母细胞瘤、骨肉瘤、神经母细胞瘤等 | | ID 前缀 | `TARGET-XX-XXXXXX`(如 `TARGET-20-PADYTY`) | --- ## ✅ 二、主要癌症队列(Cohorts) TARGET 目前包含以下几个核心癌症类型: | 癌种 | 缩写 | 样本数量(约) | 研究重点 | |------|------|----------------|---------| | 儿童急性髓系白血病 | TARGET-AAML | ~200 | 预后标志物、复发机制 | | 肾母细胞瘤 | TARGET-WT | ~250 | 遗传易感性、分子分型 | | 高危神经母细胞瘤 | TARGET-nEURO | ~150 | MYCN 扩增、信号通路 | | 骨肉瘤 | TARGET-OS | ~100+ | 基因组不稳定性、免疫微环境 | | 急性淋巴细胞白血病(Ph-like ALL) | TARGET-ALL | ~100 | 可靶向融合基因 | --- ## ✅ 三、数据层级结构 TARGET 数据按层级组织,典型结构如下: ``` Patient (TARGET-XX-XXXXXX) └── Sample (e.g., Blood, Bone Marrow) └── Aliquot (实验用子样本) ├── BAM 文件(DNA/RNA-seq) ├── VCF 文件(突变) ├── Gene Expression (HTSeq, FPKM) └── Clinical Data ``` ### 示例:样本 ID 解析 | 样本 ID | 含义 | |--------|------| | `TARGET-20-PADYTY-03A` | 患者 `TARGET-20-PADYTY` 的肿瘤样本(03A 表示初诊肿瘤组织) | | `TARGET-20-PADYTY-10A` | 正常对照样本(如外周血) | > 📌 规则:`-XXA` 后缀表示样本类型,可通过前缀提取患者 ID ```python sample_id = "TARGET-20-PADYTY-03A" patient_id = "-".join(sample_id.split("-")[:3]) # → TARGET-20-PADYTY ``` --- ## ✅ 四、可用数据类型 ### 1. 临床数据(Clinical Data) 来自你上传的 `patients_metainfo.csv`,关键字段包括: | 字段 | 描述 | |------|------| | `PATIENT_ID` | 患者唯一标识符 | | `AGE` | 诊断年龄(岁) | | `SEX` | 性别 | | `RACE`, `ETHNICITY` | 种族与民族 | | `OS_STATUS` | 生存状态(Alive / Dead) | | `OS_MONTHS` | 总生存月数 | | `CANCER_TYPE`, `CANCER_TYPE_DETAILED` | 癌症类型(如 Acute Myeloid Leukemia) | | `INITIAL_PATHOLOGIC_DX_YEAR` | 初始病理诊断年份 | --- ### 2. 分子数据(Molecular Data) 可通过 [GDC Portal](https://portal.gdc.cancer.gov/) 或 [Xena Browser](https://target.xenabrowser.net/) 获取: #### (1)基因表达数据 - HTSeq-FPKM、HTSeq-TPM、Raw Counts - 用于差异表达分析、聚类、预后模型构建 #### (2)体细胞突变 - SNV/Indel calling(MuTect2) - 可识别 FLT3-ITD、NPM1、CEBPA 等 AML 关键驱动突变 #### (3)拷贝数变异(CNV) - GISTIC2.0 结果 - 识别扩增/缺失区域(如 8q gain, 5q loss) #### (4)DNA 甲基化 - Illumina Infinium MethylationEPIC - 可用于分子亚型划分(如 epityping) #### (5)融合基因 - STAR-Fusion, Arriba 等工具检测 - 发现潜在可靶向融合(如 NUP98-NSD1) --- ## ✅ 五、数据分析流程建议 ### 🔁 标准分析路径(以 TARGET-AAML 为例) ```mermaid graph TD A[原始数据: BAM/VCF] --> B[质量控制 QC] B --> C[生成表达矩阵/突变谱] C --> D[与临床数据匹配] D --> E[探索性分析] E --> F[差异分析/生存分析/机器学习] ``` ### 步骤详解: #### Step 1: 提取患者 ID 并关联临床信息 ```python import pandas as pd # 读取表达矩阵(列名为样本 ID) expr_df = pd.read_csv("gene_expression.tsv", sep="\t") clinical_df = pd.read_csv("patients_metainfo.csv") # 提取 patient_id def get_patient_id(sample_id): parts = sample_id.split("-") return "-".join(parts[:3]) expr_patients = [get_patient_id(col) for col in expr_df.columns if col.startswith("TARGET")] ``` #### Step 2: 合并临床与分子数据 ```python # 构建表达数据的 patient-only 列名 col_mapping = {col: get_patient_id(col) for col in expr_df.columns if col.startswith("TARGET")} expr_pivot = expr_df.rename(columns=col_mapping).set_index("Hugo_Symbol").T # 合并临床数据 merged = clinical_df.set_index("PATIENT_ID").join(expr_pivot, how="inner") ``` #### Step 3: 典型分析方向 | 分析类型 | 方法 | 工具/包 | |--------|------|--------| | 差异表达 | DESeq2 / edgeR | R/Bioconductor | | 生存分析 | Kaplan-Meier + Cox 回归 | `survival`, `survminer` | | 分子分型 | 无监督聚类(层次聚类、t-SNE) | `sklearn`, `Seaborn` | | 预后模型 | Lasso-Cox, Random Survival Forest | `glmnet`, `randomForestSRC` | | 功能富集 | GO, KEGG, GSEA | `clusterProfiler`, `GSEApy` | --- ## ✅ 六、典型案例:TARGET-AAML 生存分析 ### 目标:寻找与生存相关的基因 ```r # R 示例:Kaplan-Meier 分析 library(survival) library(survminer) # 构建生存对象 surv_obj <- Surv(time = merged$OS_MONTHS, event = merged$OS_STATUS == "Dead") # 基因高低表达分组(以 TP53 表达中位数为界) high_tp53 <- merged[merged$TP53 > median(merged$TP53), ] low_tp53 <- merged[merged$TP53 <= median(merged$TP53), ] # KM 曲线 fit <- survfit(surv_obj ~ TP53_group, data = merged) ggsurvplot(fit, data = merged, pval = TRUE) ``` --- ## ✅ 七、获取 TARGET 数据的方法 | 来源 | 链接 | 特点 | |------|------|------| | **GDC Data Portal** | https://portal.gdc.cancer.gov/ | 官方原始数据(BAM, VCF, MAF) | | **UCSC Xena** | https://target.xenabrowser.net/ | 预处理后的表达、临床数据,支持在线可视化 | | **cBioPortal** | https://www.cbioportal.org/study/summary?id=aaml_target_2018 | 交互式突变浏览、通路分析 | | **TARGETdb** | https://ocg.cancer.gov/programs/target/data-matrix | 数据矩阵索引,便于筛选 | --- ## ✅ 八、注意事项 1. **隐私保护**:所有患者匿名化处理,禁止逆向追踪 2. **批次效应**:不同测序平台或年份可能导致技术偏差,需校正 3. **生存数据完整性**:部分患者失访,OS_MONTHS 可能截尾 4. **伦理使用**:仅限科研用途,不得用于商业或诊断 --- ## 🧩 知识点(不超过三项) 1. **患者 ID 提取规则**:从 `TARGET-XX-XXXXXX-03A` 截取前三段可得患者级 ID 2. **项目专属性**:TARGET 数据不可与 TCGA 混用,因人群与设计不同 3. **生存分析基础**:`Surv()` 函数结合 `survfit()` 可实现 KM 曲线绘制 --- > 💡 **总结**:TARGET 是儿科癌症研究的重要资源,尤其适合开展**儿童白血病分子分型、预后标志物挖掘和靶向治疗探索**。结合高质量临床数据与多组学数据,可推动精准医学发展。 如果你有具体的分析目标(如“找预后基因”、“做聚类分型”),欢迎继续提问,我可以提供完整代码模板。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值