这个网站是EBI(欧洲生物信息研究所)的GWAS汇总统计数据FTP服务器,核心功能是存储和提供全球公开的全基因组关联研究(GWAS)汇总统计数据,支撑遗传关联分析、孟德尔随机化(MR)、曼哈顿图绘制等科研工作。
结合目标网站(EBI GWAS汇总统计数据库)的结构、CLSA代谢物数据的核心特征,以及搜索到的补充信息,来自加拿大衰老纵向研究(CLSA)的代谢物数据集需通过“GCST编号+数据特征”在网站中定位,具体对应关系及查找方法如下:
一、CLSA代谢物数据集的核心标识(关键匹配依据)
从搜索结果(摘要2、4、5、6)可知,CLSA代谢物GWAS数据的唯一特征的:
- 样本量:8299名参与者;
- 核心指标:1091种血浆代谢物 + 309种代谢物比率;
- 数据类型:GWAS汇总统计数据(含SNP-代谢物关联的β值、SE、p值等);
- 关联文献:核心引用为“Raina et al. (2019)”(CLSA队列的基础发表文献);
- 基因组版本:多为GRCh38(近年GWAS常用版本,部分含GRCh37注释)。
二、在EBI网站中的定位逻辑(重点文件夹范围)
目标网站(http://ftp.ebi.ac.uk/pub/databases/gwas/summary_statistics/)按“GCST编号范围”分类文件夹,CLSA代谢物数据属于近年发布的大型队列GWAS数据,对应的GCST编号集中在 “GCST90000001及以后的高编号范围”,具体原因:
-
编号规则:
- 早期GCST编号(如GCST000001-GCST014000)多为2020年前的小样本研究,而CLSA代谢物数据在2021年后才逐步公开(搜索摘要1发布于2021年,摘要2、4发布于2024-2025年);
- 高编号GCST(GCST90000001起)多为2020年后的大型队列数据(如CLSA、UK Biobank子集),符合“8299样本+千级代谢物”的大样本特征。
-
重点排查文件夹:
根据数据发布时间(2021年后)和CLSA研究的关联性,优先查看以下文件夹:- GCST90010001-GCST90011000/:2021年8月更新,含多个代谢组相关研究;
- GCST90016001-GCST90017000/:2023年10月更新,涵盖近年代谢物-GWAS数据;
- GCST90054001-GCST90055000/:2024年2月更新,含标准化(harmonised)代谢数据;
- 根目录“harmonised_list.txt”:9.0M的汇总文件,直接列出所有标准化数据集的GCST编号、表型(含“metabolite”“CLSA”关键词),可优先下载此文件快速匹配。
三、精准查找步骤(实操指南)
-
第一步:下载“harmonised_list.txt”(最快方式)
网站根目录有一个名为“harmonised_list.txt”的文件(2025-10-18更新,9.0M),该文件汇总了所有“标准化处理”的GWAS数据集信息,包括:- 每个数据集的GCST编号;
- 表型描述(如“Plasma metabolite levels - CLSA”);
- 样本量、人群(如“Canadian population, n=8299”);
- 数据文件路径。
直接搜索文件中的“CLSA”“metabolite”“8299”关键词,可瞬间定位到对应的GCST编号及下载路径。
-
第二步:按GCST编号进入对应文件夹
找到匹配的GCST编号后(如假设为“GCST90016XXX”),进入对应的编号范围文件夹(如GCST90016001-GCST90017000/),文件夹内会有以具体GCST编号命名的子文件夹(如GCST90016543/),子文件夹中包含:- 代谢物汇总统计文件(如
GCST90016543_buildGRCh38.tsv.gz); - 数据说明文档(如
GCST90016543_README.txt),其中会明确标注“Study: Canadian Longitudinal Study on Aging (CLSA)”。
- 代谢物汇总统计文件(如
-
第三步:验证数据特征
下载文件后,通过以下信息验证是否为CLSA代谢物数据:- 文件名是否含“metabolite”或具体代谢物类别(如“lipid”“amino_acid”);
- 数据列是否包含“metabolite_id”“ratio_id”(区分代谢物本身和代谢物比率);
- 样本量标注是否为“n=8299”(部分文件在注释中提及)。
四、注意事项(避免查找误区)
-
网站无直接“CLSA”标签:
该网站仅按GCST编号分类,不会在文件夹名称中直接标注“CLSA”,必须通过“样本量+代谢物数量+关联文献”间接匹配。 -
优先选择“harmonised”数据:
若需用于孟德尔随机化(MR)分析,建议选择标注“harmonised”的文件(如根目录“sumstats_harm_status/”文件夹中的对应GCST数据),这类数据已统一基因组版本和等位基因方向,可直接用于跨研究分析。 -
关联文献交叉验证:
若找到疑似数据集,可通过其引用的文献(如README中提及的“Raina et al. 2019”)确认是否属于CLSA队列——这是最可靠的验证方式。
总结
CLSA代谢物数据集在EBI网站中没有单一固定的“CLSA专属文件夹”,需通过“根目录汇总文件(harmonised_list.txt)定位GCST编号→进入对应编号范围文件夹→验证数据特征”的流程查找,核心匹配依据是“8299样本+1091代谢物+309比率+关联Raina 2019文献”,优先排查GCST90000001后的高编号文件夹。
要不要我帮你整理一份**“CLSA代谢物数据查找核对表”** ?表中会列出需核对的5项关键特征、3个优先文件夹及2种验证方法,方便你按步骤定位数据。
一、网站核心定位与作用
它是国际权威数据库GWAS Catalog的重要组成部分,主要服务于遗传学和医学研究,核心价值体现在3点:
- 提供完整GWAS数据:不仅包含GWAS Catalog中“显著关联SNP”(p<1e-5),还提供每个研究的全基因组所有变异的关联统计数据(如每个SNP与性状的效应量、标准误、p值等),满足深度分析需求。
- 标准化数据支持:部分数据经过“harmonisation”(标准化处理),统一了基因组版本(如GRCh38)、等位基因命名、文件格式等,避免跨研究分析时的格式混乱,直接可用于MR、异质性检验等。
- 支撑多类科研场景:数据可直接用于孟德尔随机化(如你之前的肠道菌群-代谢物中介分析)、GWAS结果可视化(如曼哈顿图、QQ图)、遗传风险评分构建等,是遗传流行病学研究的核心数据来源。
二、数据组织规律与含义
网站数据按“范围目录→具体研究目录→数据文件”三级结构组织,每个层级的命名和内容都有明确逻辑,具体如下:
1. 一级目录:GCST范围目录(分类管理)
以GCSTXXXXXX-GCSTXXXXXX命名,如GCST000001-GCST001000、GCST90000001-GCST90001000,核心作用是“按研究编号范围分类”,方便快速定位目标研究:
- 编号规则:
GCST是“GWAS Catalog Study”的缩写,后面的数字是研究的唯一编号,从1开始递增(早期研究编号较短,如GCST000001;后期研究编号更长,如GCST90000001)。 - 举例:
GCST90016001-GCST90017000代表包含编号从GCST90016001到GCST90017000的所有GWAS研究。
2. 二级目录:具体GWAS研究目录(单研究数据)
每个范围目录下包含多个以单个GCST编号命名的子目录,如GCST90043633、GCST90014052,每个子目录对应一项独立的GWAS研究:
- 核心信息:目录名即该研究的唯一标识(可在GWAS Catalog官网https://www.ebi.ac.uk/gwas/ 搜索编号,查看研究标题、性状、样本量等详情)。
- 举例:搜索
GCST90014052可查到该研究是“某代谢物与心血管疾病的关联分析”,目录内就存储该研究的全基因组关联统计数据。
3. 三级内容:数据文件(实际可用数据)
每个研究目录下主要包含两类文件,均为压缩格式(.gz)以节省空间,核心文件类型及含义如下:
| 文件类型 | 命名示例 | 核心内容与用途 |
|---|---|---|
| 原始汇总统计数据 | GCST90014052_buildGRCh38.tsv.gz | 包含该研究所有SNP的关联信息:SNP编号(如rs12345)、染色体位置、效应等位基因、效应量(beta)、标准误(se)、p值、样本量等,可直接用于MR分析、异质性检验。 |
| 标准化汇总统计数据 | harmonised/34737426-GCST90043633-EFO_0001359.h.tsv.gz | 经过“harmonisation”处理:统一基因组版本(如GRCh38)、修正等位基因链方向、补充样本 ancestry 信息,可直接跨研究合并分析(如多研究MR)。 |
| 研究索引文件 | harmonised_list.txt(根目录) | 汇总所有标准化数据的文件路径、研究编号、性状类型,方便批量查找目标数据(如快速定位“代谢物相关”的所有研究)。 |
三、关键数据标识解读
数据命名中的高频标识需重点关注,直接影响数据选择:
buildGRCh38:表示数据基于GRCh38基因组版本(当前主流版本),若你的分析用GRCh37版本,需选择带buildGRCh37的文件,避免染色体位置不匹配。harmonised:表示数据经过标准化,已解决不同研究间“等位基因方向不一致”“坐标版本不同”等问题,是孟德尔随机化、跨研究验证的首选数据。EFO_XXXXXXX:表示该研究的性状对应EFO(Experimental Factor Ontology)术语(如EFO_0001359代表“2型糖尿病”),可通过EFO编号快速筛选同一性状的不同研究。
要不要我帮你整理一份**“GWAS数据文件类型与MR分析用途对应表”** ?表中会明确哪些文件适合做工具变量筛选、哪些适合做反向MR、哪些需要先处理格式,方便你后续直接对照使用。
CLSA代谢物数据查找指南
839

被折叠的 条评论
为什么被折叠?



