作为深耕药物研发一线的猎药人,我们深知新药研发的艰辛:一款成功药物从发现到上市平均耗时10-15年,成本高达26亿美元,且临床试验阶段失败率超90%[1]。但今天,数智化技术正在重构这一格局——AlphaFold3.0能在分钟级预测蛋白质与小分子结合构象,AI虚拟筛选可对数百万化合物高效对接,电子实验记录本(ELN)让每一次实验数据都成为人类和AI可复用的“数字资产”。本文将系统解析小分子新药研发全流程的数智化方案,为科研人员提供从工具到战略的全景指南。
一、数智化:新药研发的“生存题”而非“选择题”
医药研发数智化绝非简单的“技术叠加”,而是通过大数据、人工智能、云计算等技术,对研发全链条进行数据驱动的重构。其核心目标明确:让药物研发更高效(缩短周期)、更经济(降低成本)、更精准(提高成功率)。
为何数智化越来越重要?
1. 技术代差已迫在眉睫
2018年以前,解析一个药物靶点蛋白的四级结构需要几十人团队耗时数年;而2025年的AlphaFold3.0,能在分钟内预测DNA/RNA/蛋白质/小分子结合体结构,准确率超90%,直接取代了80%的传统结构生物学实验室工作。这种效率跃迁意味着:未转型企业将面临“技术代差级淘汰”。
在小分子领域,这一变革更具颠覆性。传统高通量筛选需投入大量人力、物力、财力筛选数万到数百万化合物,而AI生成模型可“从头设计”符合成药性的分子——未来,候选药物可能主要来自计算而非实验筛选,数智化程度将直接决定企业生存权。
2. 数据成为核心竞争力
研发数据的价值正在获得更多的重视:实验记录、散落在各软件系统和实验设备的数据、临床报告……这些“沉睡的数据”若能通过数智化工具激活,将成为创新的源泉。其中,电子实验记录本(ELN)是实验室数据的“神经中枢”——它不仅能替代纸质记录,更能实时整合仪器数据、关联文献资料、对接外部数据库,让每一次实验都成为“可追溯、可复用、可分析”的数字资产,是所有科学研究的数据地图。
3. 全球竞争倒逼转型
国际巨头已构建完整数智化体系:辉瑞通过“AI药物发现平台”将早期研发周期缩短40%[2],罗氏利用真实世界数据(RWD)平台加速临床试验入组[3]。我国不少创新型企业已经拥抱数智化,如和记黄埔、和誉医药、益方生物;他们明白,若不加速转型,不仅难以抢占国际市场,甚至可能丢失国内份额——这不是“选择题”,而是“生存题”[4-7]。
二、小分子新药研发全流程数智化方案
小分子新药研发是一场“精密的接力赛”,从靶点识别到上市后监测,每个环节都需要数智化工具精准赋能。以下结合实际研发场景,解析各阶段的核心数智化技术与落地路径。
(一)靶点识别:从“大海捞针”到“精准锁定”
传统选择靶点依赖人工查文献和湿实验,耗时12-36个月。数智化技术通过“多维度数据融合”实现突破:
•技术核心:利用自然语言处理(NLP)解析数百万篇文献构建知识图谱,结合多组学数据(基因组、蛋白组)和AI预测模型,锁定与疾病强关联的潜在靶点。例如,通过AlphaFold预测靶点蛋白的“活性口袋”,提前判断小分子结合可能性。
•数据支撑:内部数据以ELN为核心,记录基因敲除实验、动物模型药效数据;外部整合UniProt(蛋白序列)、OMIM(疾病基因)、KEGG(代谢通路)等数据库,形成“靶点-疾病-通路”关联网络。
•效率提升:将靶点验证周期压缩至6-12个月。英矽智能利用该方案研究特发性肺纤维化靶点,仅用3个月就确认TNIK为关键靶点,较传统方法缩短数年[8]。
(二)Hit苗头化合物获取:三种路径的数智化升级
获取具有潜在活性的Hit化合物是研发的起点,数智化让三种传统路径效率倍增:
1. 专利规避设计(Patent Busting)
通过AI专利分析相关工具(如InPaper、Schrödinger)解析现有专利化合物的核心结构,自动生成SAR(构效关系),可用于规避化合物的专利保护范围(如改变取代基位置、调整环结构),并通过虚拟筛选验证活性。
2. 计算机虚拟筛选
基于分子对接、药效团模型等技术,对ZINC、PubChem等数据库的数百万化合物进行“预筛选”。例如,利用AutoDock Vina结合GPU加速,1天内可完成10万化合物对接;通过商用的碳硅智慧Inno-ADMET或免费的SwissADME、admetSAR等计算工具预测成药性,排除90%不符合理化性质的分子[9, 10]。
3. 高通量筛选(HTS)
传统HTS需手动操作微孔板,数据记录易出错。数智化方案通过“黑灯实验室”实现全自动化:机器人完成移液、孵育、检测,数据直接传入ELN并关联仪器原始文件(如HPLC图谱),贝叶斯优化算法实时分析结果,动态调整后续筛选条件。某案例中,该方案将筛选效率提升5倍,耗材成本降低40%[11, 12]。
(三)Hit-to-Lead:从“苗头分子”到“成药潜力股”
Hit化合物需通过结构优化(SAR研究),从而发现Lead先导化合物,传统依赖“试错法”,耗时12-24个月。数智化通过“数据驱动优化”实现精准迭代,节省50%-80%研发时间:
•核心工具:深度生成模型(如ChemBERTa)基于现有Hit结构“生成”衍生分子,强化学习算法自动评估分子的活性、选择性、代谢稳定性;PyMOL、Discovery Studio可视化分子与靶点结合模式,指导结构修饰。
•数据整合:ELN和CMS(化合物注册管理系统)成为SAR研究的“数据枢纽”——记录每轮化合物的合成路线、IC50值、毒性数据,同时通过API接口调取ChEMBL(已知活性数据)、BindingDB(结合亲和力)等外部数据,构建“结构-活性”预测模型。某团队利用该方案,将Lead优化周期压缩至6-12个月,成药性预测准确率达75%[13]。
(四)Lead to PCC:向临床前候选化合物的“跨越”
Lead化合物需通过二次验证、体内外活性测试,一般在合成几百到几千个分子后,最终确定1-2个临床前候选化合物(PCC)。数智化技术在此阶段降低“实验室-临床产品”转化风险:
1. 二次验证与多参数优化
通过类器官芯片(替代部分动物实验)测试Lead化合物的组织特异性,结合AI模型预测脱靶效应(如激酶选择性)。ELN记录每次验证的实验条件和结果(如细胞浓度、孵育时间、增殖速度),与CMS(化合物注册管理系统)继续联动构效关系,确保先导化合物优化基于科学数据,有数据可依。
2. 体内外活性与PD/PK研究
利用数字动物模型(如Simulations Plus的GastroPlus和ADMET Predictor)预测药物在体内的吸收、分布、代谢、排泄(ADME),减少30-80%的动物实验量[14];自动化药代分析系统(如Sciex LC-MS)生成的数据直接传入ELN,与体外活性数据关联,快速锁定“药效-药代”平衡的PCC。某项目通过该方案,将这一阶段耗时从12个月缩短至8个月[15, 16]。
(五)CMC阶段:从实验室合成到工业化生产的“无缝衔接”
CMC(化学、制造和控制)是药物从实验室走向临床的关键,数智化在此阶段聚焦“工艺稳定性”与“成本可控”:
1. 原料药(API)工艺开发
通过机器学习优化合成路线:输入ELN记录的小试数据(如反应温度、催化剂用量、收率),算法自动推荐最优工艺参数(如连续流反应条件),将API合成收率从30%提升至70%,杂质控制精度达0.01%以下。诺华的连续制造技术正是通过该模式,将API生产周期缩短50%。
2. 制剂与晶型研究
AI晶型预测工具(如晶泰科技Xtalgazer和BIOVIA Materials Studio)筛选稳定性最优的晶型,减少60%的实验量;制剂开发中,利用贝叶斯优化(Bayesian Optimization)、DoE(实验设计)软件结合ELN的处方筛选数据,快速确定片剂、胶囊的最佳辅料比例。
3. 稳定性研究
通过加速稳定性预测模型(基于QbD框架),结合实时监测传感器数据(如湿度、温度),记录不同条件下的药物降解速率,提前6-12个月预测有效期,避免传统“长期等待”的时间浪费[17]。
(六)临床前毒理学研究:用“智能模型”替代部分动物实验
传统毒理研究依赖大量动物实验,耗时6-12个月。经过数十年的摸索和总结,2022年美国通过了《FDA现代化2号法案(FDA Modernization Act 2.0)》,FDA在当年再次重申“减少、替代、优化”临床前动物试验,2023年FDA提出鼓励各种新方法学(new approach methodologies,NAMs),2025年提出逐步取消对单克隆抗体和其他药物研发中动物试验的要求,还发布了减少临床前安全性研究中动物试验的路线图[18-22]。数智化方案通过“替代模型+AI预测”,符合FDA趋势,实现新方法突破:
•3D器官芯片(如肝芯片、肾芯片)模拟药物对人体器官的毒性,数据实时传入ELN并关联病理切片图像;
•利用Derek Nexus、ToxPrint/ToxGPS等工具,基于化合物结构预测遗传毒性、心脏毒性、皮肤-光学毒性等,准确率达70%以上[23];
•ELN整合毒理数据与前期PD/PK结果,生成“安全性-有效性”综合评估报告,为IND申报提供支撑。
(七)临床试验:从“盲人摸象”到“精准调控”
临床试验是研发周期最长(3-8年)、成本最高的环节,数智化技术从“患者招募”到“数据管理”全流程优化:
•患者招募:利用AI工具分析电子病历(EMR)和真实世界数据,快速匹配符合入组标准的患者,将筛选时间缩短20-90%[24-26]或增加24-50%的可入组患者[27];
•数据采集:电子数据采集系统(EDC)替代纸质CRF,与CTMS(临床项目管理系统)、检测实验室的ELN(电子实验记录本)、eTMF(文档管理)联动,实现“临床数据- 实验数据”实时比对;
•风险控制:中央随机系统(IWRS)动态分配受试者,临床药物警戒系统(CT-PV)实时监测不良事件,AI算法提前预警高风险人群(如肝肾功能异常患者)。
国内外多项临床试验通过数智化方案,显著缩短了入组时间,并提高了数据核查效率[28-31]。
(八)上市后Ⅳ期研究:真实世界数据的“持续挖掘”
药物上市后需通过Ⅳ期研究监测长期安全性与有效性,数智化在此阶段构建“全生命周期管理”闭环:
•整合医院HIS系统、医保数据库等真实世界数据(RWD),利用TriNetX等平台分析药物在大人群中的疗效差异;
•EDC系统临床数据,为说明书修订提供依据;
•新型信号检测工具(如ARISg + 社交媒体 + NLP),从广泛覆盖的多种信息来源,提前识别不良反应,及时发出风险预警[32, 33]。
三、数智化的“看得见的价值”:效率、成本与成功率的三重突破
经过多团队实践验证,数智化技术对小分子新药研发的改进已实现量化:
•周期缩短:从靶点到上市的全流程周期从10-15年可以压缩至5-10年,其中靶点识别、化合物筛选等早期阶段效率提升50%-80%;
•成本降低:AI虚拟筛选减少70%的实体化合物合成量,临床试验患者招募成本降低30%,全流程研发成本降至5-10亿美元;
•成功率提升:临床前候选化合物进入Ⅱ期临床的成功率从传统的30%提升至50%以上,核心得益于数智化对“成药性”的精准预测。
四、未来展望:从“工具赋能”到“智能创造”
数智化的终极目标,是让新药研发从“经验驱动”变为“数据驱动”,甚至“智能创造”:
•超级科学家数字员工:融合多学科知识的AI大模型,基于大量外部文献数据和内部ELN\EDC数据进行训练,可自主设计实验方案、分析数据并提出创新假设[34,35];
•全链条数据联邦:通过联邦隐私计算技术,实现跨机构数据共享(如医院、企业、高校),打破“数据孤岛”,让研发不再受限于单一团队的资源[36, 37];
•动态优化的研发网络:从靶点到生产的每个环节都可通过实时数据反馈动态调整,例如临床试验中发现的不良反应可即时反馈给Lead优化团队,用于发现第二代新药分子[38-40]。
结语:数据是根,数智是翼
回望药物研发史,从青霉素的偶然发现到mRNA疫苗的快速上市,每一次突破都源于技术革新。今天,数智化的浪潮已至——电子实验记录本(ELN)和临床电子数据采集(EDC),作为药物研发实验室阶段和临床阶段的数据之“根”,承载着研发的每一份积累;AI、大数据作为“翼”,让创新突破时空限制。
对于医药科研人员而言,数智化不是遥不可及的概念,而是触手可及的工具:从明天的实验开始,用ELN、EDC规范记录每一个数据,用AI工具优化每一次筛选,我们终将让新药研发不再“九死一生”,让更多患者早日用上安全有效的好药。
注:参考资料下方有81个常用医药研发数智化数据库/软件的介绍。
参考资料:
[1] Wong CH, Siah KW, Lo AW. Estimation of clinical trial success rates and related parameters. Biostatistics. (2019) 20:273–86. https://pmc.ncbi.nlm.nih.gov/articles/PMC6409418/
[2]“AI”制药兴起,药企能否实现“弯道超车”?凯莱英药闻, 2022年, https://www.phirda.com/artilce_29153.html
[3] Roche Digitalization Day, Virtual IR Event,
https://assets.roche.com/f/176343/x/e60b81765d/20231129_digi-day.pdf
[4]阿斯利康联手AI,全周期重塑癌症攻防格局. 健康凯歌微信公众号. 2025.7.14. https://mp.weixin.qq.com/s/I8olc_Ti8d78whxcsJA5Dg
[5] Jia H, Dai G, Su W, et al. Discovery, optimization and evaluation of potent and highly selective PI3Kγ−PI3Kδ dual inhibitors. J Med Chem. 2019;62:4936‐4948. [DOI] [PubMed] [Google Scholar]
https://pubmed.ncbi.nlm.nih.gov/31033293/
[6] 益方生物的核心竞争力--人工智能筛选加快药品研发. https://caifuhao.eastmoney.com/news/1517059262
[7] Medidata与益方生物达成企业级合作, 携手临床试验数字化前瞻性探索. https://m.ofweek.com/medical/2022-09/ART-8200-1111-30575138.html
[8]首款AI药物得到概念验证,英矽智能ISM001-055研发历程详解. https://www.pharnexcloud.com/zixun/qy_21683
[9] Dhankhar P, Dalal V, Singh V, Tomar S, Kumar P. Computational guided identification of novel potent inhibitors of N-terminal domain of nucleocapsid protein of severe acute respiratory syndrome coronavirus 2. J Biomol Struct Dyn. 2022 Jun;40(9):4084-4099. https://pubmed.ncbi.nlm.nih.gov/33251943/
[10] Oliveira LPS, Lima LR, Silva LB, Cruz JN, Ramos RS, Lima LS, Cardoso FMN, Silva AV, Rodrigues DP, Rodrigues GS, Proietti-Junior AA, Dos Santos GB, Campos JM, Santos CBR. Hierarchical Virtual Screening of Potential New Antibiotics from Polyoxygenated Dibenzofurans against Staphylococcus aureus Strains. Pharmaceuticals (Basel). 2023 Oct 9;16(10):1430. https://pmc.ncbi.nlm.nih.gov/articles/PMC10610096/
[11] Ekins S, Freundlich JS, Hobrath JV, Lucile White E, Reynolds RC. Combining computational methods for hit to lead optimization in Mycobacterium tuberculosis drug discovery. Pharm Res. 2014 Feb;31(2):414-35. doi: 10.1007/s11095-013-1172-7. https://pmc.ncbi.nlm.nih.gov/articles/PMC3946937/
[12] Ekins S, Kaneko T, Lipinksi CA, Bradford J, Dole K, Spektor A, Gregory K, Blondeau D, Ernst S, Yang J, Goncharoff N, Hohman M, Bunin B. Analysis and hit filtering of a very large library of compounds screened against Mycobacterium tuberculosis. Molecular bioSystems. 2010;6:2316–2324. doi: 10.1039/c0mb00104j.https://pubmed.ncbi.nlm.nih.gov/20835433/
[13] CFOM: Lead Optimization For Drug Discovery With Limited Data. https://dl.acm.org/doi/abs/10.1145/3583780.3614807
[14] Deb S, Reeves AA. Simulation of Remdesivir Pharmacokinetics and Its Drug Interactions. J Pharm Pharm Sci. 2021;24:277-291.https://pubmed.ncbi.nlm.nih.gov/34107241/
[15] DIA 2022 Global Annual Meeting, Presentation-126PK. www.diaglobal.org
[16] 生物分析自动化在药代动力学研究中的应用及展望. 知乎. https://zhuanlan.zhihu.com/p/691030980
[17] 变革性创新 - 利用计算机建模推进药物开发. Patheon白皮书. 赛默飞. https://www.patheon.cn/content/dam/patheon/zh/global/library/resources/whitepapers/wp-transformative-innovation-advancing-drug-development-using-in-silico-modeling.pdf
[18] FDA Modernization Act 2.0. September 29, 2022. https://www.congress.gov/117/bills/hr2617/BILLS-117hr2617enr.pdf
[19] Focus Area: Novel Technologies to Improve Predictivity of Non-clinical Studies and Replace, Reduce, and Refine Reliance on Animal Testing. FDA. 09/06/2022. https://www.fda.gov/science-research/focus-areas-regulatory-science-report/focus-area-novel-technologies-improve-predictivity-non-clinical-studies-and-replace-reduce-and
[20] Advancing Alternative Methods at FDA. 11/14/2023. https://www.fda.gov/science-research/about-science-research-fda/advancing-alternative-methods-fda
[21] FDA Announces Plan to Phase Out Animal Testing Requirement for Monoclonal Antibodies and Other Drugs. April 10, 2025. https://www.fda.gov/news-events/press-announcements/fda-announces-plan-phase-out-animal-testing-requirement-monoclonal-antibodies-and-other-drugs
[22] Roadmap to Reducing Animal Testing in Preclinical Safety Studies. FDA April 10, 2025. https://www.fda.gov/media/186092/download?attachment
[23,] Ahuja V, Adiga Perdur G, Aj Z, Krishnappa M, Kandarova H. In Silico Phototoxicity Prediction of Drugs and Chemicals by using Derek Nexus and QSAR Toolbox. Altern Lab Anim. 2024 Jul;52(4):195-204. https://pubmed.ncbi.nlm.nih.gov/38910363/
[24] Ismail A, Al-Zoubi T, El Naqa I, Saeed H. The role of artificial intelligence in hastening time to recruitment in clinical trials. BJR Open. 2023 May 16;5(1):20220023. doi: 10.1259/bjro.20220023. https://pmc.ncbi.nlm.nih.gov/articles/PMC10636341
[25] Cascini F, Beccia F, Causio FA, Melnyk A, Zaino A, Ricciardi W. Scoping review of the current landscape of AI-based applications in clinical trials. Front Public Health. 2022 Aug 12;10:949377. https://pmc.ncbi.nlm.nih.gov/articles/PMC9414344
[26] Ni Y, Wright J, Perentesis J, Lingren T, Deleger L, Kaiser M, et al. Increasing the efficiency of trial-patient matching: automated clinical trial eligibility pre-screening for pediatric oncology patients. BMC Med Inform Decis Mak 2015; 15(1): 28. https://pubmed.ncbi.nlm.nih.gov/25881112/
[27] Calaprice-Whitty D, Galil K, Salloum W, Zariv A, Jimenez B. Improving clinical trial participant prescreening with artificial intelligence (AI): a comparison of the results of AI-assisted vs standard methods in 3 oncology trials. Ther Innov Regul Sci. (2020) 54:69–74. https://pubmed.ncbi.nlm.nih.gov/32008227/
[28] 降低50%研发成本,缩短30%试验时长,璞睿如何通过E2E引领临研创新?https://bydrug.pharmcube.com/news/detail/efc49867d67b9c7b4847ef98d2a3d700
[29] 服务近20万名医学专家,惟同一辙数智化临床试验平台为什么受欢迎?https://www.toutiao.com/article/7407384788291666472
[30] 安进、拜耳、诺华等巨头纷纷押注AI,临床试验3.0时代来了?https://hub.baai.ac.cn/view/31057
[31] BMC:南方医院应用AI临床试验受试者筛选时间降低97.8%. https://www.huimei.com/news/1709274134044.html (Wang, K., Cui, H., Zhu, Y. et al. Evaluation of an artificial intelligence-based clinical trial matching system in Chinese patients with hepatocellular carcinoma: a retrospective study. BMC Cancer 24, 246 (2024). https://doi.org/10.1186/s12885-024-11959-7)
[32] 复星医药:2023年度ESG暨可持续发展报告. https://money.finance.sina.com.cn/corp/view/vCB_AllBulletinDetail.php?stockid=600196&id=9901342
[33] Nikfarjam A, Ransohoff JD, Callahan A, Jones E, Loew B, Kwong BY, Sarin KY, Shah NH. Early Detection of Adverse Drug Reactions in Social Health Networks: A Natural Language Processing Pipeline for Signal Detection. JMIR Public Health Surveill. 2019 Jun 3;5(2):e11264. https://pubmed.ncbi.nlm.nih.gov/31162134/
[34] 2021,医药数字化将往何方?--CIAPH-2021中国医药健康行业数字化调研报告_选型指南_CIO发展中心官网http://www.ileader.com.cn/html/2021/1/26/72066.htm
[35]《CIAPH第九届医药健康行业信息化高峰论坛》在成都成功召开 - 墨天轮
https://www.modb.pro/db/47678
[36] 国家数据局综合司关于组织开展2025年可信数据空间创新发展试点工作的通知. 国家数据局. 2025年. https://www.gov.cn/zhengce/zhengceku/202504/content_7017511.htm
[37] 人工智能赋能医疗可信数据空间,共绘智慧医疗新蓝图. 北京卫健委. 2025年. https://wjw.beijing.gov.cn/xwzx_20031/jcdt/202504/t20250416_4066298.html
[38] EFMC H2L最佳实践指南. https://www.efmc.info/hit-to-lead
[39] 《人工智能与药物设计》化学工业出版社. 李洪林、郑明月主编
[40] 《药物设计学》化学工业出版社. 唐赟主编
序号 | 名称 | 研发阶段 | 简介 | 分类 |
1 | PubMed | 全阶段 | 高质量文献集合;美国国家医学图书馆(NLM)下属的国家生物技术信息中心(NCBI)开发的免费生物医学文献搜索引擎,包含MEDLINE数据库。PMC是其免费的全文文献存档库。在专利突破中,这些数据库是查找非专利文献(NPL)现有技术的重要来源,用于挑战目标专利的新颖性或创造性。 | 数据库 |
2 | PubChem | 立项、Hit、Lead、CMC-API工艺 | 标准化学物质信息集合;提供化合物生物活性数据及靶点信息,支持靶点高通量筛选结果的验证。通过生物活性谱分析(如同一靶点不同化合物的IC50分布),可评估靶点的可调节性。 | 数据库 |
3 | DrugBank | 全阶段 | 整合药物-靶点-疾病全链路数据,覆盖9,000+药物与7,100+靶点,提供药物作用机制、ADMET性质及临床阶段信息。支持靶点成药性评估(如结合亲和力、通路关联),数据均经文献或实验验证,适用于靶点初筛与机制解析。 | 数据库 |
4 | ChEMBL | 立项、Hit、Lead | 免费开放的靶点-化合物活性数据库,包含1,500+靶点与239万+化合物的1,800万+生物活性记录(IC50/Ki等)、提供靶点结合构效关系(SAR)与ADMET数据,指导先导化合物优化。 | 数据库 |
5 | UniProt | 立项、Hit、Lead | 提供蛋白质序列、功能、翻译后修饰等核心信息,是靶点基础研究的起点。通过序列比对和功能注释,可快速筛选潜在靶点蛋白,并关联疾病表型(如通过UniProtKB的疾病注释字段)。 | 数据库 |
6 | PDB | 立项、Hit、Lead | 存储蛋白质及核酸的三维结构数据,是靶点结构生物学研究的基石。通过分析靶点-配体复合物结构(如结合口袋、氢键作用),可指导药物设计并预测脱靶风险。 | 数据库 |
7 | OMIM | 立项、临床试验 | OMIM(Online Mendelian Inheritance in Man,在线人类孟德尔遗传数据库)是一个由约翰·霍普金斯大学 McKusick-Nathans 遗传医学研究所负责维护、NCBI 负责分发的 权威、免费开放、每日更新 的人类基因与遗传表型知识库。覆盖所有已知孟德尔遗传病(单基因病、染色体病、线粒体病等)及超过 16 000 个人类基因。供研究人员快速获取基因-表型关系、定位候选致病基因、设计功能实验。 | 数据库 |
8 | ClinVar | 立项、临床试验 | 提供人类基因变异与临床表型的关联数据,是靶点安全性评估的必备资源。通过分析靶点基因的致病性突变频率(如LOF变异),可预测靶点干预的临床风险。 | 数据库 |
9 | TCGA | 立项、临床试验 | TCGA (The Cancer Genome Atlas)存储癌症基因组变异数据,是肿瘤靶点发现的特色资源。通过突变谱分析(如驱动基因突变频率),可识别癌症依赖性靶点(如EGFR在肺癌中的激活突变)。 | 数据库 |
10 | KEGG | 立项和靶点研究 | KEGG (Kyoto Encyclopedia of Genes and Genomes),是综合性的生物通路数据库,包含代谢通路、信号通路、疾病通路等。提供精美的通路图,直观展示分子间相互作用。包含超过540个人工绘制的通路图。对于理解靶点在生物通路中的位置、预测调控后果、识别组合用药机会重要。部分功能需要付费订阅,但基础功能免费。 | 数据库 |
11 | Citeline | 立项、临床试验 | Citeline 是医药研发与临床试验情报领域最权威、最全面的商业数据库平台之一,由 Informa(现并入 Norstella 集团)旗下的 Citeline Pharma Intelligence 事业部运营。它通过一系列互相关联的模块,为政府监管机构、制药企业、生物技术公司、CRO、投资机构及学术单位提供从早期发现到上市后监测的“端到端”情报。核心模块之一,Pharmaprojects ,是全球最早、最完整的药物研发管线数据库,收录 1980 年至今 >91 000 条原研药记录,覆盖临床前到上市/撤市的完整生命周期。 可按公司、靶点、适应症、给药途径、化学结构等 30+ 维度筛选,一键生成竞争格局、趋势图及 Excel/PDF 报告。 | 数据库 |
12 | 药渡 | 立项和靶点研究 | 市场与竞品情报;提供靶点研发格局(同靶点药物数量、临床阶段分布)、流行病学数据及竞品专利,适用于立项风险评估与管线布局 | 数据库 |
13 | AlphaFold | 立项、Hit、Lead | AlphaFold代表了蛋白质结构预测的重大突破。它使用深度学习技术,特别是基于注意力机制的神经网络,从序列信息直接预测蛋白质的三维结构。AlphaFold整合了进化信息、物理约束和几何特征,能够达到接近实验解析的精度。与传统同源建模相比,AlphaFold在缺乏高质量模板的情况下仍能提供可靠的结构预测。它为药物靶点研究提供了前所未有的结构信息覆盖度,特别是对于那些难以通过实验方法获得结构的蛋白质。研究人员可以利用AlphaFold预测的结构进行药物设计、识别变构位点、理解疾病相关突变的结构影响。 | 软件 |
14 | Schrödinger | 临床前阶段 | Glide是Schrödinger公司开发的高精度分子对接软件,支持大规模虚拟筛选和分子库筛选。其对接精度高,适合高通量虚拟筛选和先导化合物发现。"。FEP+自由能计算可精确预测结合亲和力。LiveDesign平台实现团队协作和数据管理。除软件外,还提供药物发现服务,包括虚拟筛选、先导化合物优化等。在多个内部管线项目中验证了技术平台的有效性。 | 软件 |
15 | AutoDock Vina | Hit | 分子对接与虚拟筛选;通过计算小分子配体与靶蛋白结合位点的空间互补性和能量匹配(ΔG),预测结合模式与亲和力。基于力场参数评估氢键、疏水作用等相互作用。 开源免费、支持GPU加速,可处理百万级化合物库;DTIpredict_tool等工具已整合其算法实现自动化预测。 | 软件 |
16 | BLAST | 立项、Hit | 通过比较目标蛋白序列与已知数据库中的序列,识别同源蛋白和保守结构域。BLAST使用局部比对算法,能够快速找到查询序列与数据库序列之间的相似区域。在靶点识别中,BLAST帮助研究人员了解潜在靶点的进化关系、功能域分布以及物种间的保守性。其速度快、准确性高的特点使其成为序列分析的第一步。研究人员可以通过BLAST结果推断未知蛋白的功能,评估靶点在不同物种中的分布情况,这对于选择合适的动物模型进行后续验证至关重要。 | 软件 |
17 | SwissTargetPrediction | 立项、Hit、Lead | SwissTargetPrediction是一款基于化学结构相似性和机器学习的在线靶点预测工具。用户输入小分子结构后,系统会预测其可能作用的蛋白靶点,并给出置信度评分。该工具适用于药物重定位、先导化合物优化等场景。虽然预测结果依赖于已有数据库的覆盖度,但其操作简便、速度快,是药物靶点初步筛选的有力补充。 | 软件 |
18 | Google Patents | 立项、Hit | Google Patents是由Google公司提供的免费专利搜索引擎。它收录了来自全球100多个专利局的数千万篇专利文献,提供全文搜索、专利家族信息、法律状态、引用和被引用信息以及PDF下载。其界面友好,更新及时,是进行初步专利检索和现有技术调查的强大起点,对于识别关键专利和潜在的现有技术非常有用。 | 数据库 |
19 | Espacenet | 立项、Hit | Espacenet是由欧洲专利局(EPO)维护和提供的免费在线专利信息服务。它提供了对全球超过1.4亿份专利文献的访问,覆盖了90多个国家和地区的专利数据。用户可以进行关键词、申请人、发明人、分类号等多种方式的检索,并能查看专利摘要、全文、附图、法律状态和同族专利信息。是进行深入专利检索和FTO分析的重要官方资源。 | 数据库 |
20 | USPTO | 立项、Hit | 美国专利商标局(USPTO)官方提供的专利数据库,允许公众免费检索已授权的美国专利和已公开的美国专利申请。提供了多种检索界面(如PatFT和AppFT)和高级检索功能。对于目标市场在美国的药物研发,深入研究美国专利是至关重要的,以了解相关技术的保护范围和潜在的侵权风险。 | 数据库 |
21 | CNIPA | 立项、Hit | 中国国家知识产权局(CNIPA)提供的官方专利检索与服务系统,收录了中国专利文献及部分国外专利文献。用户可以进行专利检索、浏览、下载,并了解专利的法律状态等信息。对于在中国进行研发、生产或销售的企业,了解中国专利情况是“专利突破”策略中不可或缺的一环。 | 数据库 |
22 | PatSnap | 立项、Hit | PatSnap(智慧芽)是一家全球知识产权信息服务商,提供整合了全球专利数据、科技文献、法律信息、商业信息等的SaaS平台。其平台利用AI技术进行专利数据的深度分析、可视化、价值评估和竞争情报洞察。功能包括专利检索、3D专利地图、专利引证分析、语义分析等,能帮助用户快速理解技术格局,识别核心专利和潜在突破口。 | 数据库 |
23 | WIPO PatentScope | 立项、Hit | WIPO(世界知识产权组织)的 PatentScope 数据库可查找目标专利申请并提交公众意见。 | 数据库 |
24 | E-Notebook | 全阶段 | E-Notebook 是一种“电子实验记录本”(Electronic Lab Notebook,简称 ELN),由 PerkinElmer 公司开发,是目前制药、生物技术、化工、食品、添加剂、石油化工、学术界及政府机构等领域广泛使用的商业级 ELN 解决方案。 | 软件 |
25 | Scilligence ELN | 全阶段 | Scilligence ELN 是一款基于Web的统一电子实验记录本(Electronic Lab Notebook),由美国Scilligence公司开发,面向制药、生物技术、化学、材料、学术界及政府机构的研发实验室,用于全面替代纸质实验记录,实现实验设计、数据采集、结果分析和知识共享的数字化与合规化。 | 软件 |
26 | iLabPower ELN | 全阶段 | iLabPower ELN 是创腾科技(NeoTrident)推出的一款云端电子实验记录本(ELN),专为制药、化学、生物、材料、食品、石油化工等研发实验室设计,用于全面替代纸质实验记录,实现实验过程的无纸化、数字化、智能化管理。 | 软件 |
27 | ChemDraw | 全阶段 | ChemDraw 是由美国 PerkinElmer Informatics(原 CambridgeSoft)开发、全球应用广泛的化学结构式绘制与科学出版软件,被誉为“化学家的 Word”。 | 软件 |
28 | InELN | 全阶段 | InELN(Integle Electronic Lab Notebook)是上海鹰谷信息科技有限公司(Integle)推出的国产电子实验记录本(ELN)软件,用于全面替代纸质实验记录,实现实验数据的数字化、合规化、智能化管理。 | 软件 |
29 | InDraw | 全阶段 | InDraw 是上海鹰谷信息科技有限公司(Integle)自主研发的国产化学结构式编辑器,被业内视为“ChemDraw 的国产替代”。是一款支持 AI 识别的化学绘图与信息学工具。 | 软件 |
30 | InPaper | 立项、Hit | 科研工具 InPaper(上海鹰谷出品) 是一款在线专利/论文数据结构化与智能挖掘平台,专为化学、生物、材料等科研人员设计。 | 软件 |
31 | IBM Watson | 立项和靶点研究 | IBM Watson for Drug Discovery 可分析海量医学文献、专利等,帮助识别新的药物靶点和潜在治疗组合。 | 软件 |
32 | RDKit | Hit、Lead、PCC | RDKit是一个用C++和Python编写的开源化学信息学和机器学习软件库。它提供了分子结构处理、指纹计算、子结构搜索、分子描述符生成、化学反应处理、机器学习接口等丰富功能。在H2L/SAR中,RDKit用于处理化合物数据、计算对SAR分析至关重要的各种描述符、进行相似性搜索和构建QSAR模型。 | 软件 |
33 | Questel Orbit | Hit | 专门的专利分析软件,通常与专利数据库集成或独立工作。它们提供高级的文本挖掘、数据可视化(如专利地图、趋势分析、技术聚类)、统计分析和报告功能。例如,VantagePoint (Search Technology, Inc.) 和Questel的Orbit Intelligence平台。这些工具能帮助用户从大量专利数据中提取深层洞见,识别技术空白点、关键专利持有者和潜在的无效化证据。 | 软件 |
34 | SciFinder | Hit、Lead、API工艺 | SciFinder 由美国化学会(ACS)开发并由化学文摘社(CAS)维护,是全球最全面的化学文献和专利数据库,用于查找化合物、反应、文献和专利信息。 | 数据库 |
35 | Chemspider | Hit、Lead、API工艺 | Chemspider数据库是一个包含2600万个小分子化合物的数据库,提供化合物的结构、物理化学性质和供应商等信息,可帮助研究人员快速获取化合物信息。 | 数据库 |
36 | ZINC | Hit、Lead、API工艺 | CADD (虚拟筛选库);ZINC是由加州大学旧金山分校(UCSF) Irwin and Shoichet Lab 维护的一个免费的、可用于虚拟筛选的商业可购买化合物数据库。它收集了来自多个供应商的化合物信息,并对其进行了标准化处理(如3D构象生成、质子化状态设定等),方便用户直接下载用于对接筛选。目前版本ZINC20和ZINC22包含数十亿个分子。 | 数据库 |
37 | Enamine REAL | Hit、Lead、API工艺 | 全球最大商用化合物库之一,含360亿可合成分子,支持立体化学枚举。提供分子多样性筛选与定制合成服务,是虚拟筛选的核心数据源,尤其适用于难成药靶点的新分子发现。 | 数据库 |
38 | ORION | Hit | 部署于AWS的专有计算服务,整合FRED/HYBRID分子对接与ROCS形状筛选算法。支持千亿级库筛选(如Enamine REAL),交付高活性苗头化合物列表(如HSP90抑制剂IC50=4μM)。 | 软件 |
39 | CLG-DTA | Hit | AIDD;融合图对比学习与自然语言监督的新型算法,提升靶点-配体亲和力预测精度。案例:从1800万库中筛出GluN1/GluN3A抑制剂Boeravinone E(IC50=3.40μM),效率提升10倍。 | 软件 |
40 | Discovery Studio | Hit、Lead | 由达索系统(Dassault Systèmes)旗下BIOVIA开发的商业CADD软件,集成SAR分析、分子对接、动力学模拟、ADME预测等模块。H2L中用于Hit优化(如通过对接预测取代基效果)、多参数评估(MPO),适合工业界全流程H2L项目。功能全面但需付费;常用模块:SAR Table(结构-活性关系可视化)、LibDock(虚拟筛选)。 | 软件 |
41 | KNIME | Hit、Lead | 开源的数据分析平台,通过可视化工作流处理化学和生物数据。丰富的节点库支持化学信息学、机器学习、统计分析等操作。与RDKit、CDK等开源化学工具包深度集成。支持并行计算和大数据处理。活跃的社区贡献了大量专业节点和工作流模板。零编程门槛使其成为HTS数据分析和QSAR建模的理想选择,特别适合构建自动化分析流程。 | 软件 |
42 | PyMOL | Hit、Lead | 原为Delano科学开发(现属Schrödinger),分子可视化行业标准软件(开源+商业版)。H2L中用于展示化合物与靶点的三维相互作用(如氢键、疏水口袋结合),帮助理解活性机制(如取代基如何提升结合),是SAR探索的可视化核心。支持自定义渲染(如突出活性位点);商业版提供更强大的分析功能(如动力学轨迹可视化)。 | 软件 |
43 | BindingDB | Hit、Lead | 马里兰大学开发的靶点-配体数据库,收录263万+结合亲和力数据(Ki/Kd)。提供详细实验条件(如SPR、酶抑制法),用于脱靶效应评估与结合模式优化。与PDB结构关联;含负性相互作用数据 | 数据库 |
44 | WOMBAT | Hit、Lead | WOMBAT 是一个用于先导化合物发现的生物活性数据库,包含大量生物活性数据。 | 数据库 |
45 | DataWarrior | 全程 | DataWarrior (Idorsia Pharmaceuticals,原Actelion开发,现开源) 是一款免费的化学数据可视化和分析工具。它能够处理大型数据集,计算各种分子描述符,生成散点图、柱状图等,并支持SAR表格分析、化学空间分析、活性悬崖分析和简单的QSAR模型构建。对于快速探索SAR趋势和可视化化学数据非常有用。 | 软件 |
46 | SwissADME | Lead、PCC | SwissADME是由瑞士生物信息学研究所(SIB)开发的免费在线工具,用于预测小分子的药代动力学特性(ADME)、理化性质和药效团相似性。用户可以输入SMILES或绘制结构,快速获得一系列预测结果,如类药性(Lipinski规则等)、水溶性、血脑屏障通透性、CYP酶抑制等。在H2L阶段,可用于早期评估化合物的成药性。 | 软件 |
47 | DEEP DOCKING | Lead、PCC | DEEP DOCKING 是一个基于深度学习的对接平台,可通过训练深度学习模型来预测对接分数。 | 软件 |
48 | ToxNet | Lead、PCC、毒理学研究 | CTD、ToxNet、OpenTG-GATEs这些数据库收集了化合物的毒理学数据,包括体外和体内毒性研究结果、作用机制、基因毒性、致癌性等。虽然很多毒性预测依赖于计算模型,但查阅已有的实验数据对于理解特定化学骨架的潜在毒性非常重要。ToxNet部分数据已被整合到其他NCBI资源。数据源 (毒理学信息参考)。另:由美国国立卫生研究院(NIH)开发,整合HSDB(危险物质数据库)、IRIS(综合风险信息系统)等7个毒性数据库,提供化合物的急性/慢性毒性、致癌性、致突变性数据。PCC阶段用于排查Lead的潜在毒性风险(如是否含已知毒性基团,如亚硝胺),避免后续实验失败。 | 软件 |
49 | Phoenix WinNonlin | Lead、PCC | 这些软件用于进行药代动力学/药效动力学 (PK/PD) 建模与模拟。通过分析体外和体内实验数据,建立数学模型来描述药物在体内的吸收、分布、代谢、排泄过程以及药物浓度与药效之间的关系。这对于理解剂量-暴露-效应关系,预测人体PK/PD特性,指导给药方案设计至关重要。PK/PD分析的核心工具,指导剂量选择和临床转化。 | 软件 |
50 | MOE | Lead、PCC | MOE (Molecular Operating Environment)提供全面的分子建模功能。其ADMET预测模块、QSAR工具、蛋白-配体相互作用分析、以及潜在的代谢位点预测功能,都可以在先导化合物优化中发挥作用。MOE也可以用于探索结构修饰对PK/PD相关理化性质(如溶解度、logP)的影响。 | 软件 |
51 | ADMET Predictor | Lead、PCC | 专注于预测多种ADMET(吸收、分布、代谢、排泄、毒性)性质。它们通常基于QSAR模型、机器学习算法或专家系统。提供强大的多参数优化能力,帮助平衡活性、选择性和各种ADMET性质,指导PCC的筛选。 | 软件 |
52 | admetSAR | Lead、PCC | admetSAR由华东理工大学唐赟教授团队于 2012 年开发并持续升级,是免费在线 ADMET预测与优化平台,最新版本为 2024 年发布的 admetSAR 3.0。 | 软件 |
53 | ADMETlab | Lead、PCC | ADMETlab是由中南大学湘雅药学院曹东升教授团队开发的关键成药性参数在线计算平台。其旨在为药物发现过程中的ADMET(吸收、分布、代谢、排泄特性和毒性)相关参数提供评估,帮助药物化学家进行先导化合物的设计与优化。 | 软件 |
54 | PK-Sim | Lead、PCC | 生理药代动力学 (PBPK) 建模软件整合了生理学信息和药物理化性质,能够模拟药物在不同物种(包括人)体内的吸收、分布、代谢和排泄。它们用于从临床前数据外推到人体PK,预测药物-药物相互作用 (DDI),评估特殊人群的药代行为,对PCC的选择和临床试验设计有重要指导意义。 | 软件 |
55 | Purimex | CMC | 德国Purimex公司开发的纯化数据库,提供HPLC色谱条件、柱填料及纯化参数,支持快速设计纯化方案。 | 数据库 |
56 | Reaxys | Lead、PCC、CMC | Reaxys由Elsevier开发,集成了超过3亿条化学反应、物质和生物活性数据,广泛用于化学合成路线设计和文献检索。 | 数据库 |
57 | Pipeline Pilot | Lead、PCC、CMC | Pipeline Pilot由Dassault Systèmes BIOVIA开发,用于化学信息学和生物信息学数据处理、分析和自动化工作流设计。 | 软件 |
58 | Cambridge Structural Database | CMC晶型分析 | 英国剑桥晶体学数据中心(CCDC)开发的有机与金属有机晶体结构数据库,包含超过1,000万种晶体结构,支持晶型预测、稳定性分析及多晶型筛选。 | 数据库 |
59 | Xtalgazer | CMC晶型分析 | Xtalgazer(也写作 XtalGazer)是晶泰科技(XtalPi)推出的新一代药物固体形态(晶型)研发平台。它将AI 算法 + 自动化实验 + 高通量表征整合为“一站式”解决方案,用于系统地发现、预测、筛选并确认小分子药物的所有可能晶型、盐型与共晶,从而加速IND申报、降低后期工艺风险并延长专利生命周期。 | 软件 |
60 | BIOVIA Materials Studio | CMC晶型分析 | 原美国Accelrys公司开发的多尺度材料模拟平台,包含Crystal Studio模块,用于晶型稳定性预测、相变模拟及多晶型形成能计算,辅助优化制剂晶型。 | 软件 |
61 | USP-NF | 稳定性研究 | 美国药典委员会(USP)发布的药品标准数据库,包含稳定性测试方法、条件及接受标准,是制定稳定性研究方案的法定依据。 | 数据库 |
62 | JMP Stability Analysis | 稳定性研究 | 美国SAS Institute开发的数据分析软件,提供稳定性数据统计分析模块(如Arrhenius模型、Shelf Life预测),支持加速试验与长期稳定性数据处理,符合cGMP要求。 | 软件 |
63 | Stability Workbench | 稳定性研究 | 美国Certara公司开发的稳定性研究专用软件,整合实验设计、数据采集与预测模型(如非线性回归分析),支持多因素稳定性分析及报告生成。 | 软件 |
64 | DART | 毒理学研究 | 美国国立卫生研究院(NIH)开发的药物不良反应数据库,整合了临床前和临床毒性数据,用于预测化合物的系统毒性及器官特异性毒性。 | 数据库 |
65 | RTECS | 毒理学研究 | RTECS 是一个包含化学物质毒理学数据的数据库,提供了丰富的毒性信息,包括急性毒性、慢性毒性、致癌性等,是药物研发临床前毒理学研究的重要参考资源。 | 数据库 |
66 | TOXLINE | 毒理学研究 | TOXLINE 是一个毒理学文献数据库,提供了大量的毒理学研究文献,涵盖了毒理学的各个方面,可帮助研究人员获取最新的毒理学研究进展。 | 数据库 |
67 | HSDB | 毒理学研究 | HSDB 包含了大量危险物质的毒性数据和相关法规信息,可为毒理学研究提供物质的毒性参数和安全标准。 | 数据库 |
68 | DrugMatrix | 毒理学研究 | DrugMatrix 是一个药物毒性数据库,专注于约 600 种药物的毒性数据,提供了详细的毒性机制和不良反应信息,可用于药物毒性评估。 | 数据库 |
69 | ToxPrint | 毒理学研究 | 毒性指纹分析工具,通过分子特征与已知毒物的相似性预测潜在毒性,辅助毒性机制研究与靶点关联分析。 | 软件 |
70 | ToxGPS | 毒理学研究 | ToxGPS 是ChemTunes·ToxGPS®的简称,由 MN-AM(Molecular Networks – Altamira)联合开发的一体化化学信息学与毒理学评估平台。它将高质量实验数据库(ChemTunes)与基于机制的 QSAR 预测引擎(ToxGPS)相结合,用于化学物质的安全性、毒理学和 ADMET 终点筛查、风险评估和法规申报支持。 | 软件 |
71 | Pristima Web | PCC、毒理学 | Pristima Web 是一个卓越的 Web 端临床前实验室研发管理解决方案,覆盖毒理学、病理学、动物实验管理等多个领域,具有高级数据管理功能,可优化临床前研究流程,确保研究的质量、效率和合规性。 | 软件 |
72 | Derek Nexus | 毒理学研究 | Derek Nexus 是 Lhasa Limited 开发的基于规则的毒性评估软件,可预测四十多种毒性风险,并提供导致毒性的警示结构,帮助研究人员重新设计化合物。 | 软件 |
73 | ClinicalTrials.gov | 临床试验 | 美国国立卫生研究院(NIH)维护的临床试验注册数据库,强制要求注册所有符合FDA/ICH标准的试验,用于试验设计参考、患者招募及合规性检查。 | 数据库 |
74 | PharMetrics Plus | 临床试验 | IQVIA公司的真实世界数据(RWD)数据库,包含数百万患者用药及临床数据,用于试验设计中的疗效预测及安全性分析。 | 软件 |
75 | FDA Database | 临床试验 | FDA 数据库包含了大量已经批准上市的药物信息,为临床试验提供了重要的参考数据,有助于研究人员确定试验药物的预期效果和潜在风险。 | 数据库 |
76 | Medidata Rave | 临床试验 | 美国Medidata(Dassault Systèmes旗下)开发的临床数据管理平台(CDMS),支持电子数据采集(EDC)、数据核查及合规报告,覆盖从I期到IV期试验全流程。 | 软件 |
77 | OpenClinica | 临床试验 | 开源的临床数据管理平台,由OpenClinica公司开发,提供EDC功能及定制化模块,适合预算有限的中小型机构或学术研究。 | 软件 |
78 | IMEDIC | 临床试验 | IMEDIC 致力于解决临床科研数据孤岛问题,通过构建院内科研大数据平台,为临床试验提供影像数据支持和智能诊断服务。 | 软件 |
79 | LOINC | 临床试验 | 美国Regenstrief Institute维护的实验室检测术语标准数据库,提供统一的检测项目标识符(如血红蛋白浓度代码),确保多中心试验数据的标准化与互操作性。 | 数据库 |
80 | LabKey Server | 临床试验 | 一款综合性的实验室数据管理平台,支持数据采集、分析和共享,特别适用于临床检测实验室的数据管理。 | 软件 |
81 | ArisGlobal LifeSphere | 临床试验、药物警戒 | 专注于药物安全(pharmacovigilance)、法规事务、质量管理、医学事务及临床试验的一体化 SaaS 解决方案 | 软件 |
作者:Data-AI4Science,
2025.July