基因慧的行业报告整体上不错,这次《基因大数据智能生产及分析》也不例外,一口气读完,感受是智能化是行业趋势,打工人的日子更难了。文章有点长,没时间看的话你可以拉到文后看我的一点感想。
序言
陈润生院士:基于基因大数据的精准医疗时代已经来临
2019 年,《国务院关于实施健康中国行动的意见》明确提出,预防为主,从以治病为中心转变为以人民健康为中心。
疾病,还是重在预防,真得病了,医生也没什么办法,医学界不是流行一句话么:
To cure sometimes,to relieve often, to comfort always.
有时治愈,时常帮助,总是安慰。
因此,管住嘴,甩开腿,才是长久的健康之道。你一天整两包烟,哪天得肺癌了,医生也无能为力。
如何落实以以人民健康为中心的任务?最核心的任务是维护全生命周期健康和防控重大疾病,这与基因大数据革新传统医疗健康的模式息息相关。
精准医疗与传统医疗有何不同?传统医学往往是同类疾病给予相同的药物,这存在缺陷,因为症状相同,并不意味着病因相同。
如何实现”同病异治“?——答案就是生命健康大数据,其中最核心的是组学数据,而组学数据中最基础的是基因组数据,组学数据结合临床表型形成生命大数据。
如何更好将基因大数据转化为科研和产业的价值呢?
首先,需建立百万数量级的生物样本库,这是建立各种标准的基础;其次,针对生物样本库,要进行多组学测量,所以我们看到基因组是最先兴趣的产业;而编码蛋白质的传统基因只占 3%,另外 97%非编码的重大信息仍需进一步挖掘,大数据技术会得到空前发展;第三,有了数据和样本后,需要从大数据中挖掘信息,这需要生物信息学和 AI 在内的数字技术融合,包括新兴的分子诊断和生物创新药会兴趣;第四,基于以上的组学大数据及带来的新兴产品,精准预防和精准医疗的理念将得以实现。
方向东:基因大数据及智能化重构现代医学
重点:
“国家基因组科学数据中心”和”国家生物信息中心“已经正式提供服务。
《中华人民共和国人类遗传资源管理条例》自 2019 年 7 月 1 日起施行。
云计算、人工智能、区块链、5G 等前沿技术,结合生命组学大数据,将会更加有效地支撑个性化精准医疗、智能临床决策支持、全民健康管理和公共卫生风险防控等。
行业代表寄语
基因科技守护生命健康。
——李瑞强(北京诺禾致源科技股份有限公司董事长 & CEO)
过去十余年里,测序技术快速发展。针对基因大数据的生产、计算、存储和管理,华大智造提供贯穿全流程的自动化和信息化解决方案。
——单日强(深圳华大智造科技股份有限公司 CIO)
目前,我们已经走到了第四次工业革命的起点和风口上,人工智能和知识计算在基因领域的突破和应用会促进医疗健康行业的再次蓬勃发展,在基因诊断、临床研究和药物研发等领域带来巨大的机遇。
——贾永利(华为云人工智能领域总裁)
随着测序成本的下降,测序不再是难题,而基因数据解读成为世界性难题,解决这一难题的终极途径就是构建基因 - 表型大数据。
——谷为岳(北京智因东方转化医学研究中心有限公司 CEO)
第一部分 行业概况
一、生命健康新基建
(一) 新基建
新型基础设施(简称“新基建”)的概念第一次出现是在 2015 年《国务院关于积极推进“互联网+”行动的指导意见》中,此后从 2018 年起被频繁提及,并于 2020 年 4 月的国务院常务会议中被正式定义,新基建主要包括三个方面:
一是信息基础设施:信息基础设施主要指基于新一代信息技术演化生成的基础设施,包括以 5G、物联网、工业互联网、卫星互联网为代表的通信网络基础设施;以人工智能、云计算、区块链等为代表的新技术基础设施;以数据中心、智能计算中心为代表的算力基础设施等。
二是融合基础设施:主要指深度应用互联网、大数据、人工智能等技术,支撑传统基础设施转型升级,进而形成的融合基础设施,例如,智能交通基础设施、智慧能源基础设施等。
三是创新基础设施:主要是指支撑科学研究、技术开发、产品研制的具有公益属性的基础设施。例如,重大科技基础设施、科教基础设施、产业技术创新基础设施等。
(二) 生命健康新基建
生命健康新基建的内涵,主要围绕着生命的中心法则:
遗传信息由 DNA 传向 RNA 或由 RNA 传向 DNA,mRNA 作为指导蛋白质合成的直接模板,将 DNA/RNA 上储存的遗传信息传递给蛋白质,蛋白质进而发挥功能并影响人体系统机能。
生命的中心法则:
DNA -> RNA ->蛋白质 -> 细胞 -> 组织 -> 系统 -> 个体
DNA 形成基因组、RNA 形成转录组,结合蛋白组、代谢组、微生物组等构成生命组学。
一方面,基因大数据自身具备生命健康新基建的属性。
另一方面,基因大数据是新基建中针对众多数字技术(云计算、人工智能、5G、区块链等)最具价值的输入之一。
(三) 基因大数据
基因大数据指的是基于测序、PCR(聚合酶链式反应)、基因芯片、光学图谱等获得的大规模、具有数据挖掘应用价值的多样本基因数据信息。
基因大数据本质是生命数字化的基础信息,包括核心的先天遗传信息以及后天随环境改变的基因变异信息,是生物个体及群体的身份识别、疾病健康生物标记以及生命组装等方面的基本要素。
关于 pan-genome:
对于基因数据结构,除了目前的参考基因组组装及数据库、人口级基因队列和区域数据中心建设,2015 年,泛基因组学联盟提出基于更丰富的数据结构代替传统的线性参考基因组,即泛基因组(pan-genome),丰富基因数据中隐含的变异、相似性、频率和功能性内容的信息等。
基因数据的生产,目前还是主要基于测序技术,由实验技术人员完成,具体过程包括样本采集、文库制备和测序,属于湿实验过程。
基因数据的分析,通常称之为“生物信息分析”,是在计算机或计算集群上完成,一般称之为“干实验”(相对于湿实验而言)。
二、发展现状
(一) 市场规模
根据 BCC Research 数据,全球基因测序市场总体规模从 2012 年的 35 亿美元增长至 2019 年约为 130 亿美元。基因慧预测,2020 年全球基因市场规模为 180 亿美元。预计新冠疫情刺激的全球基因市场会至少持续增长两年,2022 进入相对稳定增长状态,预计到 2025 年全球基因市场规模可达 360 亿美元。
基因慧预计 2020 年国内基因行业市场规模可达 149 亿元。未来几年国内基因测序市场的普及率与渗透率会逐步提高,市场规模增势稳健,复合增长率预计将超过 35%,到 2025 年市场规模预计约为 727 亿元。
(二) 转化应用

1. 医疗健康领域
(1) 科研服务
科研服务主要内容包括基础研究、临床研究、新药发现等,用户主体为科研机构、医院和制药公司。基础科研和临床科研作为医学可持续发展的充分必要条件,为医学的发展提供了强大的支撑。国内药企新药研发正处于起步阶段,在生物药研发热潮下,新药研发将成为科研应用市场新的增长点。
(2) 临床服务
基因大数据应用方面,临床服务市场增速最快,应用场景已经涵盖了生命全周期:孕前、产前、新生儿、儿童、中青年、老年人,包括生育健康、肿瘤基因检测以及遗传