项目背景
人类通过生辰八字来推算自己的年龄,这是广义上的年龄。在生物学领域,通过细胞的甲基化程度来衡量人类的年龄,则叫甲基化钟。甲基化钟存在的意义是,通过生物信息学的视角来量化机体的年龄。如常规的医美技术或者当前极速发展的细胞学技术改造后,机体细胞是否变得年轻,实现真正的逆生长。
当前甲基化数据主要有两个来源。甲基化芯片(450K,850K数据)和全甲基化测序(WGBS)。考虑低成本的话应选择850K芯片,450K当前已经淘汰只有少数生物公司还有库存。拿诺禾致源公司的850K测序服务来举例,单样本在5000元左右。当然也可以从GEO数据库上下载自己需要的甲基化数据(如GSM5027686)。
本文简化了繁杂的生物信息处理过程,包括红绿信号处理,质控,建立统计学模型等。使读者可以轻松获得一个可以运行出结果的pipeline。当然了,这也使读者损失了自己参与的乐趣。当前模型通过大量样本测试,预测甲基化年龄的准确性可以达到95%以上。
一、本篇学过之后能获得什么?
通过450K,850K数据,运用生物信息手段,预测样本的甲基化年龄。这个过程几乎可以达到自动化,当然需要掌握基础的R语言技术(如data