zd200572-优快云博客

转载 bioconda中国镜像(北外备用，清华已恢复，中科大暂时没恢复)

bioconda是conda上一个分发生物信息软件的频道，现在已经有超过2700款软件。由于国内没有基镜像，下载安装生物信息软件速度十分缓慢，经常中断，生物信息人迫切需要一个国内镜像。Bioconda is a channel for the conda package manager specializing in bioinformatics software。2019.6.15高兴地...

2019-06-17 20:44:44 17220

原创基因检测之《生命的语言》读书笔记

自从高中毕业选择生物工程专业入行，到研究生阶段微生物学的学习，再到工作开始做基因检测方面的工作，很庆幸基本上在生命科学领域学习和工作。每月去一次的图书馆，让我对科技的好奇心得以保持，互联网的畅达，让我得以接触到全世界的资讯。虽然，在工作之余，我的兴趣大部分在电子、电脑和软件方面。这本《生命的语言》就是借自南图，以一个基因检测从业者身份学习科学大家如何对大众进行基因和生命科学的科普。记录一下读书笔记...

2019-02-11 14:33:36 1052

原创 STREAMS指南：环境及宿主相关微生物组研究中的技术报告标准

STREAMS指南为环境和非人类宿主微生物组研究提供标准化报告框架，包含67项核心条目。该指南在STORMS基础上扩展，涵盖从研究设计到数据分析的全流程，特别针对环境研究的特殊性提供操作建议。通过248名研究人员的共识，STREAMS制定了机器可读的DMP工具模板和8个应用案例，推动微生物组数据的FAIR化。作为持续更新的"活文档"，该指南为研究者提供规范化投稿准备，同时为审稿人建立统一评估标准，促进跨学科数据共享和重复利用。

2025-12-24 22:11:04 560

原创 popEVE:人类疾病遗传学的全蛋白质组模型数据库

摘要：popEVE是一款创新的基因变异预测模型，通过整合进化数据和人类群体信息，为全蛋白质组范围内的错义突变提供校准评分。该模型在不依赖trio测序的情况下，成功识别出严重发育障碍队列中的442个致病基因（含123个新候选基因），并展现出优异的临床实用性。数据库提供三种数据下载格式：按转录本ID排列的TSV文件、按染色体分类的TSV文件，以及完整的GRCh38版本VCF格式。研究证明popEVE在单例病例诊断中具有重要价值，为临床基因组学提供了可靠的进化知情评分框架。（149字）

2025-12-10 21:45:09 437

原创宝藏R包中的微生物学名-中文名对照表

本文介绍了一个名为"pctax"的R包，其中包含2023年整理的微生物拉丁名-中文名对照数据。该R包功能丰富，主要用于微生物组数据分析，作者还编写了相关书籍。文中详细说明了获取和保存数据表的方法，并指出数据来源于权威的《细菌名称双解及分类词典》和中国典型培养物保藏中心网站。最后分享了获取该对照表的网盘链接。该资源为微生物研究提供了便捷的中文名称查询工具，但使用时仍需注意微生物命名的更新情况。

2025-12-08 22:19:29 268

原创 AI辅助数据分析和学习了没？

摘要：AI技术快速发展，从基础对话扩展到多模态交互和智能体应用。AI已能高效解读科研论文图片、搜索文献，并辅助数据分析与脚本编写。通过实际案例展示了AI在开发工具（如shell脚本封装、txt转excel工具）和浏览器插件中的应用，证明AI极大降低了技术门槛。作者认为AI将促进社会平等而非两极分化，鼓励更多人探索AI的潜力，以实现更美好的未来。

2025-11-07 21:52:58 352

原创从10小时到1小时！开源网页工具Protologger让细菌命名自动化

摘要微生物命名面临大量未命名细菌的挑战，传统方法耗时且繁琐。DSMZ团队开发的Protologger工具通过自动化分析16S rRNA基因和基因组数据，快速生成细菌分类、功能及生态特征，显著提升命名效率。该工具支持在线（http://protologger.de/）和本地部署，整合了GTDB-Tk、CAZy等数据库，将新分类单元描述时间从10小时缩短至1小时。研究通过34个新分类单元验证其有效性，并强调多方法分类学验证的重要性。Protologger为微生物研究提供了标准化、高效的命名解决方案，助力未培养

2025-11-01 22:22:30 1029

原创台湾精准医疗计划：GWAS-summary statistics完全公开可下载

台湾精准医疗计划（TPMI）通过招募56万名参与者，建立了开放共享的基因与健康数据库，涵盖719种表型与基因变异的关联分析。该项目采用针对汉族优化的技术进行全基因组分析，已发表5篇论文，推动非欧裔人群遗传学研究。平台提供公开的GWAS汇总数据，但临床资料设有限制。数据显示台湾地区高血压、心脏病和糖尿病是主要健康威胁。该项目展示精准医疗在个性化用药、健康管理等方面的应用前景，强调开放合作对科研创新的重要性。相较于部分大陆项目的封闭性，TPMI的开放模式更具参考价值。

2025-10-26 22:29:01 971

原创 QIIME 2 2025.7：微生物数据分析再升级！

平台集成了数十个插件和数百种方法，支持从扩增子到宏基因组的多种数据类型处理，并且可视化功能强大，交互性良好，适合科研展示与结果解读。目前平台已推出多个“分布版”，例如扩增子分析套件、MOSHPIT 宏基因组工具包、致病基因组检测模块，以及面向开发者的最小框架版，覆盖了从基础研究到临床应用的广泛场景。对于希望深入参与的研究者，无论是否具备编程背景，都有明确的参与路径和贡献指南。QIIME 2 2025.7 作为今年的功能版本，本次更新延续了团队一贯的高质量节奏，带来了多项插件增强、框架优化以及文档更新。

2025-10-15 21:21:03 480

原创从样本到出图，你的宏基因组分析可能每一步都在“掉坑”？这篇指南帮你完美避坑

宏基因组学研究方法标准化评估：从DNA提取到生物信息学分析的全流程比较《Communications Biology》最新研究系统评估了宏基因组学全流程方法，包括4种DNA提取试剂盒、多种文库构建策略和3大测序平台（Illumina、ONT、PacBio）。研究发现，Zymo的Quick-DNA HMW MagBead试剂盒与Illumina DNA Prep组合表现最佳，而分析流程差异可解释59.4%的群落变异。研究团队开发的minitax工具能提供跨平台一致的物种注释结果。该研究为不同需求（成本vs精

2025-10-12 20:35:58 1052

原创两个RNA-蛋白以及蛋白间相互作用数据库

华人学者团队在《自然生物技术》发表PRIM-seq技术，开发了人类RNA-蛋白质关联网络(HuRPA)，包含超35万个关联，涉及7,000个RNA和11,000个蛋白质。该技术无需特异性试剂即可系统发现RNA结合蛋白及其靶标，并验证了肿瘤相关lincRNA LINC00339等关键分子。同时，另一研究通过深度学习预测了17,849个人类蛋白质相互作用，其中3,631个为新发现，预期精度达90%。两项研究均提供在线数据库和下载服务，为RNA-蛋白质互作和蛋白质相互作用研究提供重要资源。

2025-10-09 22:17:42 655

原创具有广泛宿主范围的噬菌体在生态系统中很常见

噬菌体在微生物群落中多种多样且丰富，它们在微生物群落的进化和适应中发挥着重要作用。噬菌体复制和繁殖通常被认为限制在单个或狭窄的宿主范围内。法国巴斯德研究所的研究人员，使用来自各种环境的已发表和新生成的基于邻近连接的宏基因组 Hi-C （metaHiC）数据来探索病毒与宿主的相互作用。重建了 4,975 个中等质量或更高的微生物基因组和 6,572 个噬菌体基因组。

2025-09-21 14:15:00 973

原创泛英国生物样本库全基因组关联分析

该研究通过混合模型关联和荟萃分析，对英国生物样本库中7,266个性状进行跨遗传血统组分析，建立了以遗传结构为基础的质量控制框架。研究发现14,676个显著位点，包括新关联（如CAMK2D与甘油三酯）和血统富集变异（如G6PD中的多效性变异）。尽管欧洲血统组样本量更大，但研究强调了扩大遗传多样性对精准医疗的重要性，有助于识别因果变异和新的生物学机制。所有数据已公开，为不同人群的风险变异解释提供资源。

2025-09-20 21:18:34 376

原创高效精准的全基因组谱系贝叶斯推断方法SINGER

SINGER是一种新型贝叶斯推断方法，用于高效重建祖先重组图谱（ARG）。该方法采用改进的MCMC算法，运行速度比ARGweaver快两个数量级，能处理数百个基因组序列。核心创新包括分支采样、时间采样和ARG重新缩放技术，以及"子图修剪和重新嫁接"的MCMC更新策略。在模拟测试中，SINGER在合并时间推断准确性（均方误差1.06）和拓扑结构重建方面均优于现有方法。应用于千人基因组数据时，成功识别出群体分化信号、古人类基因渗入和HLA区域的跨物种多态性。该研究为大规模群体基因组分析提供了

2025-09-15 20:31:05 850

原创 Melon: 基于marker基因的三代宏基因组分类和定量软件

基于标志基因的分类方法在理论上（如生物学意义）和实际应用中（如计算资源消耗）均具有优势。除了我们了解的可能的假阴性，三代宏基因组的类似分析工具比较欠缺，于是作者就开发了一个。来自港大张彤团队去年的力作，得知这个软件可能最早是在团队的主页，但是真正感兴趣是看到NM的三代宏基因组扩展陆地微生物的研究中使用了这个软件。虽然文章发表的期刊不是特别棒，但看到最近两个月依然在更新，想要尝试下分析的效果啦！

2025-09-09 22:51:55 740

原创 SingleM测试:基于reads和单拷贝标记基因氨基酸序列的物种分析

现有的许多宏基因组物种注释工具没有考虑未知的物种，昆士兰科技大学（QUT）生物医学科学学院微生物组研究中心，转化研究所开发的SingleM可以通过保守序列窗口策略解决此问题，但环境样本中仅8.0%的物种来自培养样本，表明基因组数据库仍需扩展。软件先对reads生成OTU，然后进行分类注释和丰度估算。下图是从原始宏基因组读取生成分类注释的OTU表的工作流程原理图。PS.也可以做16S 分析啦！condense步骤的流程原理，减少噪音，让结果更加准确。

2025-09-03 22:37:13 816

原创 NM：微生物组数据分析的规划与描述

微生物组研究统计分析指南为确保微生物组研究的可重复性和科学性，本文提出了一套统计分析规范。关键要点包括：1）实验前需制定详细分析计划，明确目标变量与预测变量；2）模型构建应包含结果变量、预测变量集及连接模型；3）预测变量选择需区分研究变量、精度变量和混杂因素；4）必须阐明统计假设和检验方法，并进行敏感性分析；5）建议将关键假设列为研究局限性。文章强调统计分析透明化的重要性，提倡跨学科合作，以提升研究质量和结果解释的可靠性。通过规范化分析流程，可优化实验设计，增强研究发现的可信度。

2025-08-31 22:40:00 856

原创电子健康记录风险评分与多基因风险评分的互补性与跨系统推广性研究

本研究评估了基于电子健康记录（EHR）的表型风险评分（PheRS）与多基因风险评分（PGS）在预测13种常见疾病风险中的表现。通过分析芬兰、英国和爱沙尼亚三大生物样本库的845,929名成年人数据，研究发现PheRS具有良好的跨系统泛化能力，与PGS相关性低（r≈0.02），表明二者捕捉独立的风险信息。PheRS在8/13种疾病中显著提升PGS模型的预测性能，尤其在哮喘、抑郁症等疾病中表现突出。研究证明EHR与基因数据结合可提高疾病风险预测准确性，为临床风险分层和精准防控提供了有力工具。

2025-08-30 20:50:44 933

原创 Science:机器学习模型进行遗传变异外显率预测

本研究提出利用机器学习整合大规模电子健康记录（EHR）与基因数据，构建遗传变异外显率预测模型。基于134万参与者的EHR数据，针对10种遗传性疾病建立XGBoost模型，评估了1648个罕见变异的外显率。结果显示致病性变异外显率最高，且与临床指标显著相关。该框架为系统性评估遗传变异风险提供了新方法，有助于改进变异解读和精准医疗决策。模型代码已开源，数据来自BioMe Biobank和UKB等多样化队列。

2025-08-30 20:22:35 1071

原创金丝猴肠道微生物组响应季节性饮食变化的可塑性研究

摘要（150字）本研究通过宏基因组与宏转录组分析，揭示了金丝猴肠道微生物组响应季节性饮食变化的适应机制。研究发现野生金丝猴肠道微生物在夏季富集植物次生代谢功能，冬季则转向地衣多糖降解和能量平衡相关菌群（如毛螺菌科），而圈养个体微生物组无显著季节性波动。研究重建了578个宏基因组，其中76.5%为新菌种，凸显了金丝猴肠道微生物的高度新颖性。结果表明肠道微生物通过功能可塑性帮助宿主适应环境变化，为濒危物种保护提供了新见解。数据已公开（NGDC PRJCA023520）。

2025-08-24 17:18:45 1001

原创 iPHoP：集成式病毒宿主预测工具指南

摘要： iPHoP是专为预测原核病毒宿主设计的创新工具，整合宿主与噬菌体双重特征分析，在属级分类中实现高召回率且假阳性率<10%。其双阶段预测框架融合机器学习与多源数据库（GTDB/IMG/GEM），对未培养病毒尤其有效。实测显示预测量提升3-5倍，人类微生物组宿主关联覆盖率可达89%。支持Bioconda/Docker快速部署，提供置信度分级结果（≥90分可信度高），适用于宏基因组病毒-宿主互作研究。相关成果发表于《PLoS Biology》（2023）。

2025-08-20 20:21:55 826

原创基于prompt的生物信息学：多组学分析的新界面

摘要：基于自然语言提示的生物信息学正重塑科研范式，通过消除编程障碍实现跨组学分析。该技术利用大型语言模型将自然语言指令转化为自动化分析流程，显著降低技术门槛并提升多模态数据整合效率。尽管在可重复性、评估标准和任务适用性方面仍存挑战，但社区协作开发和教育推广有望推动其成为生物发现的革命性工具，未来或与传统分析管道形成互补，开启更开放、高效的科研新时代。（149字）核心要点：自然语言交互降低生物信息学使用门槛多组学数据整合效率显著提升需建立标准解决可重复性等开放问题有望与传统方法协同推动科研创新

2025-08-19 21:40:46 1159

原创 LDAK-KVIK:全基因组关联研究（GWAS）新工具

丹麦研究团队开发的LDAK-KVIK是一款高效的全基因组关联分析工具，通过创新的遗传力建模和区块变分贝叶斯算法，在保持高统计功效的同时显著提升计算效率。该工具采用两步分析法，能比主流方法多发现16%的显著位点，处理35万样本仅需10CPU小时和5GB内存。支持定量表型、基因水平和多族裔数据分析，但二元表型优势有限。其开源代码和详细使用说明已在Zenodo平台发布。

2025-08-17 17:41:18 987

原创基因编辑预测工具：inDelphi与Pythia

CRISPR基因编辑预测工具inDelphi和Pythia为科研人员提供了强大的计算支持。inDelphi由MIT开发，基于大量实验数据训练，能预测SpCas9诱导的DNA修复结果（1-bp插入和1-60bp缺失），支持单序列、批处理和基因三种分析模式。Pythia作为inDelphi的延伸应用，提供更友好的界面，包含基因整合和编辑优化两项核心功能。这两个工具协同工作，inDelphi侧重基础机制研究，Pythia专注实际应用，共同提高基因编辑实验效率，减少试错成本。它们代表了基因编辑预测工具的重要发展方向

2025-08-17 15:36:07 983

原创 UKB-GWAS资源更新

英国UKB项目发布49万参与者全基因组测序数据，揭示跨种族遗传特征。新增UKB等位基因频率浏览器、阿斯利康PheWAS门户和SV关联数据库三大资源，支持变异频率查询和基因-表型关联分析。相比芯片数据，WGS检测变异数量提升18.8倍，能更全面识别致病突变和结构变异。该开放数据库将促进复杂区域变异研究，为疾病生物学和药物研发提供新机遇。研究者呼吁建立类似开放数据库，推动全球健康事业发展。

2025-08-11 22:17:18 1581

原创 EPI2ME分析软件测试

本文分享了使用Oxford Nanopore公司EPI2ME软件进行16S测序数据分析的体验。作者分别尝试了图形界面和命令行两种方式：图形界面安装过程中因Docker Hub连接问题受阻；命令行方式通过Nextflow成功运行，但需调整硬件配置和数据量(抽取前10万条)才完成分析。分析结果包含多样性指数、圆盘图、桑基图等可视化展示，但物种注释仅到属级水平。文章指出该工具适合分析基础较弱的用户，但存在网络连接和硬件要求较高的挑战。整体评价该工具基本满足需求，提供了便捷的现成分析方案。

2025-08-09 22:01:12 1190 2

原创地铁和城市宏基因组项目metaSUB

MetaSUB是一个全球性的城市环境宏基因组研究项目，涵盖地铁、下水道、海滩等100多个城市样本采集，包括北京、台北等中国城市。项目主要目标是构建地理空间宏基因组图谱、追踪抗菌素耐药性标记及发现新型生物合成基因簇。分析工具包括MetaPhlAn、HUMAnN及自主研发的CAP2流程。临床病原检测工具SURPI提供快速和全面两种分析模式，用于mNGS项目。项目虽网站维护不足，但数据仍在更新，并有国际会议交流，如近期东京会议有中国学者参与。

2025-08-06 21:08:43 416

原创中国孕妇阴道微生物组研究揭示Lactobacillus iners的新特性

来自中山大学附属第六医院的最新发表在《npj Biofilms and Microbiomes》的研究，通过对95名妊娠晚期妇女的系统分析，不仅描绘了健康孕妇阴道微生物组的特征图谱，更揭示了Lactobacillus iners这一特殊菌株在健康维护和疾病发生中的双重作用。比较基因组学的深度挖掘展现了研究的另一重要维度。在物种层面，MetaPhlAn3的注释显示，健康孕妇的阴道微生物组呈现出独特的分布模式，其中L. iners主导的CST III型占比高达50%，显著高于疾病组的31.15%。

2025-07-31 08:50:42 355

原创 CIPHER：百万退伍军人计划（MVP）的全基因组 x 全表型组关联（gwPheWAS）研究

美国退伍军人事务部的百万退伍军人计划(MVP)建立了全球最大的退伍军人基因组数据库，与能源部合作开发了CIPHER知识共享平台。该研究对63万退伍军人进行全基因组关联分析，发现3.8万个独立变异位点，其中2069个在非欧裔群体中发现，凸显遗传研究多样性的重要性。平台提供了PheWeb、gwPheWAS、GeoPheno等多个在线工具，支持表型基因组数据的可视化分析，包括疾病流行地理分布、药物靶点发现等功能，但部分数据需申请访问权限。这些资源为研究基因、生活方式与健康关系提供了重要支持。

2025-07-26 15:09:37 1133

原创处理excel/wps表格中数值格式的警告的工具和脚本

科研人员常遇到TXT转Excel时数据格式混乱的问题。本文介绍了一个简单易用的转换工具，支持网页、R和Python三种版本，能自动处理数值格式、保留注释信息，并智能调整列宽。工具采用开源代码，既可在网页端使用也可本地运行，能有效解决生物信息学数据导出时的格式问题。作者分享了开发过程，并邀请用户测试反馈，为科研数据处理提供了便捷解决方案。

2025-07-21 22:01:15 492

原创 pharokka & phold--快速噬菌体注释工具

pharokka是一款专为噬菌体基因组设计的快速注释工具，最新版本为1.7.0（2024年6月更新）。它使用PHANOTATE进行基因预测，通过MMseqs2比对PHROGs等数据库进行功能注释，并支持tRNA、CRISPR检测等功能。phold是其补充工具，采用深度学习模型ProstT5进行结构注释，适合特征较少的噬菌体。两者可联合使用：先用pharokka完成基础注释，再用phold进行结构增强分析。安装方式包括conda、pip和docker，并提供Galaxy在线服务。pharokka输出GFF和功

2025-07-10 22:00:55 1599

Vine Server.app.zip

空空如也