- 博客(134)
- 资源 (1)
- 收藏
- 关注

转载 bioconda中国镜像(北外备用,清华已恢复,中科大暂时没恢复)
bioconda是conda上一个分发生物信息软件的频道,现在已经有超过2700款软件。由于国内没有基镜像,下载安装生物信息软件速度十分缓慢,经常中断,生物信息人迫切需要一个国内镜像。Bioconda is a channel for the conda package manager specializing in bioinformatics software。2019.6.15高兴地...
2019-06-17 20:44:44
16347

原创 基因检测之《生命的语言》读书笔记
自从高中毕业选择生物工程专业入行,到研究生阶段微生物学的学习,再到工作开始做基因检测方面的工作,很庆幸基本上在生命科学领域学习和工作。每月去一次的图书馆,让我对科技的好奇心得以保持,互联网的畅达,让我得以接触到全世界的资讯。虽然,在工作之余,我的兴趣大部分在电子、电脑和软件方面。这本《生命的语言》就是借自南图,以一个基因检测从业者身份学习科学大家如何对大众进行基因和生命科学的科普。记录一下读书笔记...
2019-02-11 14:33:36
1002
原创 测试BioMaster: AI生信分析的demo测试
从去年吴恩达说agent(智能体)将大有可为,到dify等开源智能体以及Manus(多智能体应用)的爆火,AI智能体进入多智能体时代,应用也逐渐成熟。最近对两个AI的方向比较感兴趣,一个是GUI Agent, 比如GLM PC, 字节开源的UI-TARS等,但是相对来讲还是还处于初级阶段的。关注这个是因为想让自己许多相对简单的工作部分给到AI处理。
2025-03-29 18:45:18
856
原创 一句话生成火山图网页App, 点赞claude3.7的前端能力
若论最近最火的大模型,当然是DeepSeek R1啦,让开源模型可以和闭源模型PK,成功地push了一把闭源模型们,claude 3.7应该就是其中一个,从各个报道的测评来看,它应该是使用了很多前端代码进行训练,所以这方面的能力突出。前两天刚好对增强版火山图比较感兴趣,于是灵机一动,试试能不能它直接画出来,结果,他直接给出一个网页应用,确实有点惊艳。在自定义数据模式下:您可以输入自己的数据,格式为每行一个数据点,包含名称、log2FoldChange、p值以及可选的附加信息,以逗号分隔。
2025-03-22 22:53:09
222
原创 每月更新,提供qiime2兼容库:Mitohelper助力鱼类线粒体序列分析
Mitohelper基于MitoFish数据库,构建了三个重要的鱼类参考数据集,包含全线粒体序列、COI序列以及12S rRNA基因序列。每个数据集都经过精心整理,添加了详细的基因名称和结构化的分类信息,这种系统化的组织方式大大提高了数据的可用性和分析效率。
2025-03-19 22:20:22
395
原创 【算法工具】HDL: 基于摘要统计数据的高维连锁不平衡分析软件
HDL-L通过全似然框架和高效算法,为复杂性状的遗传机制研究提供了更精准、可靠的分析工具,尤其适用于大规模遗传数据的精细化解析。其开源特性及灵活的区域定义方式,有望推动遗传学、医学和农业领域的多维度研究。想了解更多细节或获取源代码,请访问GitHub项目页面:https://github.com/zhenin/HDL。
2025-03-12 23:03:54
717
原创 SNIPAR:快速实现亲缘个体的基因型分离与推断
SNIPAR是一款用于单核苷酸多态性(SNP)基因型数据分析的开源软件工具。高效分离亲缘个体的基因型推断基因的父母起源分析基因重组事件识别祖先关系与传统方法相比,SNIPAR的速度提升显著,能够处理大规模人群队列数据,同时保持高准确度。
2025-03-12 22:48:40
692
5
原创 GPU加速生信分析-宏基因组MAG去污染
Deepurify利用多模态深度语言模型来过滤污染的基因组,从而提高了宏基因组组装基因组(MAGs)的质量,并且可以利用GPU加速。宏基因组组装的基因组 (MAG) 为使用宏基因组测序数据探索微生物暗物质提供了有价值的见解。然而,人们越来越担心 MAG 中的污染可能会严重影响下游分析的结果。目前的 MAG 纯化工具主要依赖于标记基因,并没有充分利用基因组序列的上下文信息。为了克服这一限制,作者引入了用于 MAG 净化的 Deepurify。
2025-03-10 23:16:30
930
原创 基因研究的“北极盲区”
格陵兰因纽特人作为北极原住民的代表,其独特的遗传历史和生活方式,使得他们的基因图谱长期处于科学研究的“盲区”。这项研究如同一盏灯,照亮了北极健康之谜,也为全球医疗公平开辟了新路径——唯有包容多样性的科学,才能真正守护全人类的健康。人口瓶颈:约1000年前,因纽特祖先从西伯利亚迁入格陵兰,经历了严酷的人口收缩(仅约300人),基因多样性大幅减少。饮食与适应:高脂肪、高蛋白的传统饮食,可能驱动了基因的自然选择(如与脂肪代谢相关的CPT1A和FADS2基因)。
2025-02-18 21:31:44
446
原创 手机上运行AI大模型(Deepseek等)
最近deepseek的大火,让大家掀起新一波的本地部署运行大模型的热潮,特别是deepseek有蒸馏的小参数量版本,电脑上就相当方便了,直接ollama+open-webui这种类似的组合就可以轻松地实现,只要硬件,如显存,RAM足够,参数量合适,速度还可以接受。本地部署的意义在于,一是可以数据不上网,让一些私密的数据有所保障,二是可以实现一些在线限制的功能。在手机上运行的意义,其实更多可能是玩玩,但是,随着LLM技术的发展,已经手机硬件正在赶超PC和服务器,或许在未来,手机上就可以实现电脑上同样的功能。
2025-02-02 13:31:22
6304
2
原创 GPU加速GWAS分析--quickdraw
quickdraw是一种可扩展的方法,可以进行数量和二元性状的全基因组关联研究(GWAS)。研究人员将Quickdraws应用于405088个英国生物库样本的79个定量性状和50个二元性状,发现比REGENIE多出4.97%和3.25%的关联,分别比FastGWA多出22.71%和7.07%。Quickdraws的计算成本与REGENIE、FastGWA和SAIGE在英国生物库研究分析平台服务上的成本相当,同时比BOLT-LMM显著更快。
2025-01-22 09:06:42
809
原创 GPU加速生信分析--MMseqs2 && Chorus
元旦快乐!在生信分析过程中,序列比对占了很大的比重,于是搜索了下相关软件,发现GPU版本的blast或者CPU-GPU混合计算(H-Blast)的软件比较难编译成功,应该是当时的软件编译环境过于老旧,对一些旧的硬件应该还是适用的。但是,依然找到了有最近发表或在活跃更新的软件,分享一下,期待这些软件可以更新并大规模应用!
2025-01-01 15:45:37
929
原创 拉取docker镜像应急方法
发现许多docker hub镜像网址速度也慢得发指啦,如果想速度快点,可以考虑买个按量计费的公有云服务器,用他们的内网镜像,然后再导出,然后传到本地。
2024-11-17 21:29:36
657
原创 Ubuntu24.04解决向日葵安装libgconf-2-4依赖问题
最近在加装的ssd上加装了个Ubuntu,当然要装最新的长期支持稳定版啦,24.04.1,却发现常用的向日葵不好安装成功,即使是官方的说明,应该是用这个版本系统的人还不多。但是文章是直接添加source源的方式,我担心后续会影响稳定性,毕竟ubuntu本身的稳定性不那么好,有人认为它是Debian+bugs,当然观点有点偏激啦!我是手动解决依赖的,这里记录下,方便当下的安装,未来ubuntu官方可能会更新,这个方法或许就没必要了,大家注意。以下是详细过程,当然通过浏览器下载后,双击依次安装也是可以的。
2024-11-17 18:11:07
2059
原创 【QIIME 2 2024.10 版本发布啦!】
QIIME 2 的最新版本 2024.10 已经正式发布!📅 下一个版本 QIIME 2 2025.4 计划在明年 4 月发布,敬请期待!🔧 安装指南更新:最新版本的 QIIME 2 安装指南和教程资源已经上线,快去查看如何安装吧!🐳 Docker 镜像同步上线q2-dada2stats_vizq2-statsq2-dada2q2-demuxq2-boots,让我们一起探索微生物组的奥秘!🌌🧬【QIIME 2 2024.10 版本详细更新内容】📝。
2024-11-12 12:00:05
584
原创 GPU加速生物信息分析的尝试
实话实说,暂时只有英伟达的GPU才能实现比较方便的基因组分析集成化解决方案,其他卡还需要努力呀,或者需要商业公司或学术团体的努力开发呀!FPGA等这种专用卡的解决方案也是有的,比如某测序仪厂家,某大厂,专门做加速方案的提供商,以及CPU加速方案提供商等。这里,就先看下普通人可及的英伟达啦,AI的普及,以及黑神话的爆火,让大家都有了相对较好的卡,有的实验室新配服务器也加装了一般的GPU算力卡,除了做AI,也可以考虑下做下加速分析啦!
2024-09-17 17:55:02
1487
原创 两个人群填充参考(CHN100K和NARD)
分别是中国人群和东北亚人群的填充参考,测试了下,中国人群的参考注册还是相对友好的,没有像有些网站一样严格限制。东北亚的没有测试,两个数据库的特点都是包含了少数民族,研究朝鲜或蒙古族或其他民族的同学,研究的填充效果会更好,可以测试下!
2024-09-16 22:11:04
449
原创 neural-admixture:基于AI的快速基因组聚类
Neural ADMIXTURE 是一种基于 ADMIXTURE 的无监督全局祖先推理技术。通过使用神经网络,Neural ADMIXTURE 提供高质量的祖先分配,运行时间比 ADMIX 快得多。该软件可以通过 CLI 调用,并且具有与 ADMIXTURE 类似的界面(例如,输出格式完全可互换)。虽然该软件在 CPU 和 GPU 中运行,但我们建议使用 GPU(如果可用)以利用基于神经网络的实现。
2024-09-01 17:17:19
1417
原创 QIIME2宏基因组学教程--2024年春季莱顿和苏黎世教程
最近在qiime2论坛发现有人发布了qiime2宏基因组的教程,这里分享一下,只是alpha版本,不成熟,大家谨慎了解。qiime2的专用格式对于折腾宏基因组还是有点不妥的,个人观点,但是好在他能让分析标准化,可追溯的话,我觉得还是利大于弊的。使用 QIIME 2 进行的宏基因组学分析目前处于 alpha 版本。这意味着您生成的结果应被视为初步结果,而不是发布质量。
2024-09-01 16:17:07
1143
原创 普大喜奔!usearch开源+64位旧版本免费用
前段时间听说USEARCH即将开源,今天另一位小编发现GitHub上已经有开源代码了。我们随即搜索了开源版本的使用效果,发现V12版本的测试结果不尽如人意,具体详情请参阅这篇公众号文章。正当我感到失望时,浏览评论时发现了意外的惊喜——旧版本的64位已经开放下载了!于是我们决定测试一下并向大家分享使用体验,一起试试吧!
2024-06-30 15:10:52
944
原创 爬虫可以不必自己写,使用ChatGPT编写抓取电影评论数据脚本
你是网络数据抓取的高手,熟练掌握 Python 编程语言,具有良好的网络编程基础,能够熟练使用网络爬虫框架,具备数据处理和分析能力,以及自我学习和解决问题的能力。然后,我们就得到了代码,当然,可能有个别报错,一般来讲对应修正下就可以啦,或者让gpt自己纠错下!Devin这个AI程序员,以及metaGPT等也做了开源的程序员,应该比这个是强大了,不管怎样,简单的代码gpt还是hold住的。这里是会报错的,以下是纠错后的代码,我觉得GPT的爬虫水平比我好啦,因为我已经好久没写啦,忘光啦!
2024-06-09 17:31:06
1147
原创 把chatgpt当实习生,进行matlab gui程序编程
最近朋友有个项目需要整点matlab代码,无奈自己对matlab这种工科的软件完全是外行,无奈只有求助gpt这种AI助手了。大神们告诉我们,chatgpt等的助手已经是大学实习生水平啦,通过多轮指令交互就可以让他帮你完成工作啦!所以,你只需要给他提各种要求啦,只要不是太离谱,一般情况下它会实现的,把需求说清楚,把报错给到它,哪怕是一次不正确,不要放弃,不停地告诉它错啦,它终会给你正确的处理的!这里分享下我的一个简单的测试!
2024-06-09 17:26:59
1588
3
原创 一文读懂Prodigal教程
于2007年开发,是一种用于细菌和古细菌基因组的蛋白质编码基因预测软件工具,Prodigal 已成为世界上最受欢迎的微生物基因预测算法之一。首字母缩略词代表karyoticenefindinggorithm。提供了“Prodigal”一词的几种定义。作者希望援引的是:**3.**丰富多彩;丰富:大自然的Prodigal资源。而不是更常见的含义(例如浪费,或“Prodigal回头”)。
2024-02-02 12:08:36
4922
原创 Dryad数据库学习
亲测无需注册,可以直接下载,从一个数据测试看,数据存储在亚马逊云,下载速度还可以,6M/s的样子。Dryad 是一个开放的数据发布平台,也是一个致力于所有研究数据的开放可用性和常规重用的社区。Dryad 通过实现所有研究数据的公开发布和常规重用,推进了我们的愿景——研究数据的开放可用性和常规重用,以推动研究成果的加速发现和转化为社会利益。
2024-01-02 12:02:46
2597
原创 touchHLE实战之游戏
都是针对IOS2的,对于游戏怀旧党,相当不错,再也不需要购买个物理的iTouch,虽然成本低到只有50块,但是电池是真的不行呀!当然,如果你是个技术党,也可以qemu进行模拟,但是我亲测失败啦!
2023-12-31 14:42:56
1346
原创 跟着NC学cfDNA全基因组片段化丰度谱分析
R中有组织的 + 可重现 + 可共享的数据科学框架,Workflowr结合了编程(knitr和rmarkdown)和版本控制(通过git2r的Git)来生成一个包含时间戳记,版本控制和文档化的结果的网页。任何R用户都可以快速轻松地使用它。其设计的初衷是助研究人员以促进有效的进行项目管理,可重复性的分析,同时进行协作和对结果进行共享。
2023-05-20 14:04:00
1204
原创 Nature子刊:HPV改变阴道菌群的机制
细菌性阴道病(BV)是育龄妇女常见的阴道疾病,其特点是以阴道加德纳氏菌和其他厌氧细菌(如阴道阿托巴氏菌、普雷沃氏菌等)为主的细菌取代了占主导地位的乳酸杆菌。三十年的流行病学研究报告证明,性伴侣的多样性、阴道冲洗和吸烟等是感染BV的危险因素。阴道菌群的失衡很可能是多因素的,涉及外部因素、构成阴道内源性微生物群的不同种类的细菌和宿主粘膜之间的复杂相互作用。来自比利时的科学家通过6000人的大型回顾性队列研究发现,HPV阳性患者的3年BV持续率为50.1%,而非感染者为41%。改变阴道菌群并促进局部癌变。
2023-04-21 13:26:24
840
原创 奇怪的R语言apply问题及解决
打印出来才发现问题所在,正数多了个空格,导致结果错误,但是单独放一行上去结果是OK的。就是这么神奇有没有,怎么解决呢,as.numeric转化成数值试试?我想用apply函数筛选一下第三列V4中的数据,用一个稍微复杂的条件,这里我简化成了是否大于0,当然,如果只是>0,太多方法可以实现了,只是复现最小错误。今天遇到了一个百思不得解的问题,记录一下,欢迎交流讨论。为了简化问题,我把数据删除到两行,并把问题最小化了。这些函数都是matrix的,首先会转换成matrix,如果有字符串首先变成字符串类型的。
2022-10-26 08:37:07
698
原创 PyTorch编译尝试笔记
发现手上的GT-740M,已经太老,算力3.0,早被pytorch抛弃,想要学习下深度学习,基于没好卡,刚好时间还有点,花了一天的时间编译了一下,发现显存是个大难题,可以把数据或模型搞小点吧!主要参考了这两个,基本上是个体力活,只按按照版本来的话是不会报错的,当然,也是挺花时间的,需要6个小时以上,i3-3120M,双核2.5G Hz的CPU。
2022-10-05 16:29:02
1200
原创 使用RTL SDR 和VirtualRadar看飞机的问题解决记录
1、显示英国或者美国的地图,位置不对为了防止网络代理的影响,第一建议退出所有代理,因为地图现在默认不用谷歌,梯子基本无用了。然后在VirtualRadar增加接收器的位置,2、连接接收器失败主要是端口问题,设置为RTL-1090快捷方式中设置的相同即可,默认应该是30003,如果设置这个应该不用改的。3、设置完没反应重启软件生效参考的教程:https://www.cnblogs.com/ywsoftware/p/3684870.htmlhttps://blog.youkuaiyun.com/qq.
2021-06-06 16:51:08
2199
原创 新技能Get!宏基因组分析结果导入qiime2分析和可视化
最近读微生态公众号中宏基因组的文章,发现阿童木写的教程,宏基因组的数据可以导入qiime2分析。于是有了发现新大陆的感觉,qiime2是一个优秀的可视化工具,有它在手,分析不愁呀,可是作者并没有给出怎样导入数据的教程,我摸索了一番,基本解决了问题,欢迎交流呀!数据是使用biobakery的流程得到的metaphlan3的结果,如下图所示:如果不清楚biobakery流程可以参考BioLink-鲍志伟的这篇:https://mp.weixin.qq.com/s/ET6Jl9kld0oHKLbK2OS-
2021-05-18 08:33:37
1528
2
原创 高效R编程
这是《高效R语言编程》的学习笔记,前面的笔记在这里:https://blog.youkuaiyun.com/zd200572/article/details/115349366https://www.jianshu.com/p/71392ef45d01很多R语言用户并不认为自己是程序员,我也是:),精通专业知识,理解R语言的标准数据结构,但是缺乏正规编程训练,你是这样的吗?高效编程的5个技巧1、小心,尽量不要增大向量的大小2、尽可能向量化代码3、适当时机下使用因子4、通过缓存变量避免不必要的计算5、
2021-04-25 16:42:39
219
原创 高效使用R笔记2
R启动文件每次R语言启动读入.Renviron和.Rprofile两个文件,前者主要是环境变量,程序位置和API密钥等;后者是启动进需要运行的几行R代码。启动时先找.Renviron,然后是.Rprofile,它们出现在3个目录中,安装目录(R_HOME,R.home()),家目录(HOME, Sys.getenv("HOME"))和当前工作目录(getwd())。.Renviron.Rprofile...
2021-04-20 15:30:47
787
原创 sWGS检测CNV的一点探索
ichorCNA笔记这个软件可以检测切除的肿瘤组织,识别其中的肿瘤细胞含量,也可以用来检测纯肿瘤组织。可以有参考,也可以不用,官方提供了参考,可以自建。1、 软件安装软件官网:https://github.com/broadinstitute/ichorCNAlibrary(devtools)install_github("broadinstitute/ichorCNA")2、软件使用# 1、准备数据,分块10Khmmcopy_utils/bin/readCounter --window
2021-03-28 16:17:09
1357
8
原创 biobakery流程之有参宏基因组分析
biobakery_workflows wmgx --input ./ --output outputads 8 #--dry-runtrain-profiling --local-jobs 5 --threa(Jan 23 07:27:31) [ 0/28 - 0.00%] **Ready ** Task 4: kneaddata____s5-3(Jan 23 07:27:31) [ 0/28 - 0.00%] **Ready ** Task 0: kneaddata____
2021-02-28 16:53:30
2991
11
原创 Kraken2 Vs qiime2 16S物种注释
最早接触Kraken2这个软件是在宏基因组,但官网上说其实这个软件也是可以用于16S物种注释的。当时没怎么在意,后面发现有个美国肠道微生物检测公司Thryve是使用这个软件进行物种注释的。最近发现2020年9月的一篇文章是比较了kraken2和qiime2的物种注释结果,详细见宏基因组公众号的文章。今天我要说的是亲自拿一个肠道微生物的样本测试下这个软件的分类效果,再和自己用的qiime2流程获得的结果比较下,绝知此事要躬行呀。首先说一个令我震惊的发现,作者发现使用qiime2进行物种分类的时候,使用1
2021-02-16 17:52:22
2417
2
原创 SMURF流程之q2-sidle(四)-- 序列重建
SMURF 算法的核心是基于基于 kmer 的短区域重建到全长框架中。有两个步骤,首先是ASV在单个区域基于kmer进行比对,然后完整的序列集组装成重建的计数表。区域比对第一步是每个区域把序列比对到数据库,使用 align-regional-kmers 命令,我们前面使用--kmer-db-fp选项设置了数据库,使用 --rep-seq-fp选项传递ASV序列,最后是区域定义,来自前面你给区域起的别名,要完全一致。比对是一个开心的可并行任务,我们可以通过多多线程提升性能(--p-n-workers参
2021-02-06 16:34:50
675
4
原创 SMURF流程之q2-sidle(三)--reads准备
完成了前面的数据库准备,下面就是reads的准备,基本过程就是把reads拆成对应不同引物的几个部分,后面再重建合并在一起啦。首先声明,这个方法还在开发和完善之路,最近一次更新在这个月,可能结果会有变动,应该说还处于beta版本中,不建议在生产环境中使用。这里就有几种情况啦,一种是已经每个样本每个V区拆好的数据,另一种是每个样本几个V区混在一起的数据,或者完全没拆的数据。这里根据SMURF的示例,按第二种情况进行,应该是最常见的情况。下面是具体步骤:Reads准备尽管SMURF依赖于质控过滤,还是推荐
2021-02-06 16:32:19
813
3
原创 SMURF流程之q2-sidle(二)
前面已经完成了qiime2-slide插件的安装,测试方法就是输入qiime: sidle Plugin for kmer-based marker gene reconstruction.出现了上面的选项,应该就说明已经安装成功了。数据库准备数据库准备是一劳永逸的,前面我们已经完成了数据库过滤的步骤准备一个区域数据库这一步是提取一个区域的数据库,基于K-mer,为了提升内存效率,把简并碱基和重复kmer作为一条序列。# 首先,使用feature-classi
2021-01-30 17:52:20
524
2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人