
读书笔记
文章平均质量分 71
穆易青
用大模型思维颠覆传统学习生信路径
展开
-
2025.03.22【读书笔记】| fastq-multx:高效barcode拆分数据解决工具
在生物信息学的世界里,工具的选择至关重要。它们就像是我们探索基因奥秘时的瑞士军刀,每个工具都有其独特的功能和用途。今天,我们要介绍的这个工具,不仅仅是一个简单的程序,而是一把能够解锁生物数据深层含义的钥匙。它能够让我们从海量的数据中提取出有价值的信息,帮助我们理解生物过程的基本机制和相互关系。这个工具,就是,一个用于高效barcode去复用和demultiplex的解决方案。是一个专门设计用于处理高通量测序数据中的barcode去复用问题的工具。原创 2025-03-22 16:21:00 · 928 阅读 · 0 评论 -
2025.03.15【L0观后感】|基因工程如何重塑“人”的定义——观桑德尔北大讲座有感
周一北京大学哲学系公众号直播了迈克尔·桑德尔教授关于基因工程伦理的讲座内容,让大家有幸在线上“近距离”听到了一场桑德尔教授的讲座。原创 2025-03-15 19:49:57 · 280 阅读 · 0 评论 -
2025.03.14【读书笔记】|GCTA工具概述
GCTA(Genome-wide Complex Trait Analysis)工具是一种用于全基因组关联研究(GWAS)的统计框架,是由西湖大学杨剑(Jian Yang)实验室开发的,它能够帮助我们评估遗传变异对复杂性状影响的重要性。本文将详细介绍GCTA工具的使用方法和在生物信息学研究中的应用。GCTA简介GCTA是一个开源软件包,主要用于基于基因组数据的遗传关联分析。它能够计算样本间的亲缘关系矩阵,进行主成分分析(PCA),并估计遗传力(Heritability)。原创 2025-03-14 15:08:17 · 870 阅读 · 0 评论 -
2025.03.14【读书笔记】|GWAS分析神器:BOLT-LMM工具介绍与快速安装
在生物信息学领域,全基因组关联分析(GWAS)已成为揭示遗传与疾病关系的强有力工具。BOLT-LMM作为一款专为大规模样本量设计的GWAS分析工具,将极大地提高研究人员的工作效率。大家好,今天我们来聊聊一个非常强大的生物信息学工具——BOLT-LMM。它是基于线性混合模型(LMM)的全基因组关联分析(GWAS)分析工具,通过快速的方差近似方法在计算效率上实现了显著的提升。BOLT-LMM的高效性能使其成为大规模样本GWAS分析的理想选择,它将进一步推动生物信息学和遗传学研究的发展。原创 2025-03-14 14:47:20 · 395 阅读 · 0 评论 -
2025.03.13【读书报告】|Scanpy安装与使用
Scanpy 是一款基于 Python 的可扩展工具包,专为分析单细胞基因表达数据而设计。它提供了一套全面的工具,涵盖了单细胞数据分析的各个关键步骤,包括质量控制、标准化、基因过滤、变量基因选择、降维、聚类、差异表达分析、细胞排序、模拟和可视化。自 2017 年发布以来,Scanpy 凭借其强大的功能和易用性,在单细胞研究领域获得了广泛应用。截至目前,该工具已发表 2 篇正式论文和 2 篇预印本,总引用次数超过 6000 次,充分证明了其在学术界的活跃程度和影响力。原创 2025-03-13 10:39:26 · 841 阅读 · 0 评论 -
2025.03.13【读书笔记】|kallisto:单细胞定量工具安装介绍
kallisto是一个用于转录本定量的软件工具,其独特的基于伪对齐的技术,使得在不需要传统比对的情况下,就能够快速准确地估计转录本的丰度。这种方法的主要优点包括速度快、准确性高和计算成本低。cDNA文件是kallisto分析中不可或缺的一部分,它包含了用于定量的参考转录本信息,直接影响定量结果的准确性。Kallisto 以其显著的计算速度优势,让研究人员能够更高效地处理 RNA-seq 数据,极大推动了转录组学研究的进展。原创 2025-03-13 10:25:29 · 642 阅读 · 0 评论 -
2025.03.12【读书笔记】|monocle:快速安装及使用
通过一个具体的实战案例,我们可以更直观地了解monocle工具的应用。Monocle 凭借其构建伪时间轴的能力,为我们深入理解细胞发育和分化过程提供了强有力的工具。它在识别关键基因、揭示细胞状态转变以及探索时间依赖性的表达模式等方面,具有显著优势。虽然随着单细胞技术的快速发展,涌现出许多新的分析工具,但 Monocle 依然是研究人员进行细胞轨迹分析和时间序列分析的重要选择。尤其是在以下情况下,Monocle 能够提供独到的见解:研究细胞发育过程中的动态变化识别在细胞分化过程中起关键作用的基因。原创 2025-03-12 10:39:13 · 1388 阅读 · 0 评论 -
2025.03.12【读书笔记】|scvi-tools安装指南:Python环境配置与软件包安装
与 Seurat和 Scanpy相比,scvi-tools 的优势在于其基于变分推断的概率建模框架,能够更深入地探索数据中的复杂结构,例如进行更准确的批次校正、数据补全和细胞类型预测。也就是说,Seurat和Scanpy更偏向于提供数据预处理,数据可视化,基本统计分析等。而scvi-tools更加偏向于,通过概率模型,深层次的,处理更复杂单细胞数据分析。特别是在需要进行深入的批次校正、数据整合和细胞类型预测时,scvi-tools 能够提供更准确、更可靠的结果。原创 2025-03-12 10:02:02 · 926 阅读 · 0 评论 -
2025.03.05【突发】|因美纳出口禁令,基因测序行业 “地震”,国内产业将迎怎样巨变?
而华大智造作为国产测序仪的代表,正在迅速崛起,2023 年,华大智造国内新增测序仪销售装机达 695 台,占国内基因测序行业上游新增装机市场份额的 47.3%,连续两年在国内测序设备新增装机市场份额排名第一。但在中国市场,因美纳未进行实物召回,仅软件升级。2025 年 3 月 4 日,商务部新闻发言人就对美国因美纳公司采取不可靠实体清单并禁止该公司对华出口基因测序仪答记者问时指出,美国因美纳公司违反正常的市场交易原则,中断与中国企业的正常交易,对中国企业采取歧视性措施,严重损害中国企业合法权益。原创 2025-03-05 14:04:22 · 359 阅读 · 0 评论 -
2025.02.02【横向评测L1】| Deepseek与ChatGPT的生信使用体验
Chatgpt-4o我选择的是两个工具的网页对话模型,deepseek注册后可以在官方网站直接点击。原创 2025-02-02 16:29:44 · 1737 阅读 · 0 评论 -
2024.12.21 【读书笔记】GitHub项目迁移:生信人员快速入门 (下)
合理的项目结构对于生信项目的代码管理和协作至关重要,让我们探讨如何优化项目结构,并使用.gitignore文件保持代码库的整洁。良好的文档是项目成功的关键,我们将讨论如何使用Markdown编写README文件,并使用GitHub Wiki共享项目知识。:在GitHub上创建一个新的项目,选择合适的模板。📚 我承诺,将持续为您带来深度与广度兼具的生物信息学内容,让我们一起在知识的海洋中遨游,发现更多未知的奇迹。迁移完成后,验证数据的完整性和项目设置的正确性是至关重要的,这将确保你的项目能够顺利运行。原创 2024-12-21 23:00:36 · 517 阅读 · 0 评论 -
2024.12.11【读书笔记】GitHub项目创建:生信人员快速入门 (中)
GitHub项目与仓库的区别在于,项目提供了一个更高层次的组织结构,可以包含多个仓库,而仓库则用于存储项目的代码和文件。有效的脚本编写是实现分析自动化和复现性的核心,我们将探讨如何选择合适的编程语言和工具来构建模块化的RNA-seq分析流程。项目的初步搭建是确保后续分析顺利进行的基石,让我们从创建一个新的GitHub仓库并设计清晰的项目结构开始。📚 我承诺,将持续为您带来深度与广度兼具的生物信息学内容,让我们一起在知识的海洋中遨游,发现更多未知的奇迹。🔔 关注我的账号,不错过每一次知识的分享和探索的旅程。原创 2024-12-11 14:46:43 · 612 阅读 · 0 评论 -
2024.12.11【读书笔记】MLST多序列分型分析使用方法
它通过分析多个不同基因座位上的序列变异,为每个样本分配一个独特的序列型(Sequence Type, ST),从而实现菌株的精确分类和追踪。选择合适的MLST方案对于目标菌种的分析至关重要,我们可以通过PubMLST数据库查询目标菌种的基因座信息,以确定合适的MLST方案。📚 我承诺,将持续为您带来深度与广度兼具的生物信息学内容,让我们一起在知识的海洋中遨游,发现更多未知的奇迹。工具的输出结果,我们可以解读得到的等位基因和序列型(ST),从而确定样本的MLST型别。是目标菌种的MLST方案名称,原创 2024-12-11 11:40:30 · 1372 阅读 · 0 评论 -
2024.12.05【读书笔记】|GitHub项目创建:生信人员快速入门 (上)
学会编写README.md文件,为你的项目提供一个清晰的介绍,包括使用方法、依赖环境和运行示例,让其他研究人员能快速上手。迈出生物信息学项目管理的第一步,创建你的专属代码库,选择最合适的Repository类型,为项目的成功奠定基础。📚 我承诺,将持续为您带来深度与广度兼具的生物信息学内容,让我们一起在知识的海洋中遨游,发现更多未知的奇迹。建立一个清晰有序的项目文件结构,包括数据、脚本、结果和文档的存放,提高项目组织的效率和可维护性。🔔 关注我的账号,不错过每一次知识的分享和探索的旅程。原创 2024-12-05 00:20:02 · 631 阅读 · 0 评论 -
2024.12.04【读书笔记】|Cursor使用文档及生信领域详细应用教程
接下来,我们将介绍Cursor的主要界面元素,包括代码编辑区、终端、调试器等,并配以清晰的截图,帮助用户快速熟悉Cursor的操作环境。原创 2024-12-04 22:58:14 · 1365 阅读 · 0 评论 -
2024.12.03【读书笔记】|BBmap比对工具使用方法
BBmap是生物信息学领域中一个强大的序列比对工具,尤其在处理DNA和RNA序列数据方面表现出色。BBmap是一个功能强大、灵活且高效的序列比对工具,特别适合处理大规模的DNA和RNA序列数据。随着生物信息学领域的不断发展,BBmap和其他相关工具,如bbduk、bbsplit等,将继续在基因组学研究中发挥重要作用。📚 我承诺,将持续为您带来深度与广度兼具的生物信息学内容,让我们一起在知识的海洋中遨游,发现更多未知的奇迹。原创 2024-12-03 16:16:27 · 1117 阅读 · 0 评论 -
2024.12.03【读书笔记】|BBmap修复损坏fastq数据详细步骤
准备你的数据时,请确保输入文件是FASTQ格式,无论是单端还是双端测序数据,并明确文件的存储路径。脚本在修复损坏的FASTQ数据方面具有明显优势,本教程总结了其使用方法,并鼓励读者尝试使用BBmap来修复自己的FASTQ数据。同时,也可以讨论其他修复FASTQ文件的工具,并比较它们的优缺点。📚 我承诺,将持续为您带来深度与广度兼具的生物信息学内容,让我们一起在知识的海洋中遨游,发现更多未知的奇迹。原创 2024-12-03 15:50:17 · 809 阅读 · 0 评论 -
2024.12.02【读书笔记】|f5c:高效处理ONT甲基化分析工具
在生物信息学领域,Oxford Nanopore测序技术以其独特的长读长优势,为甲基化研究提供了新的视角。f5c工具以其卓越的效率和易用性,成为了科研人员和生物信息工程师处理ONT甲基化数据的利器。f5c工具以其核心功能——快速、高效地进行Oxford Nanopore技术(ONT)甲基化数据分析——而脱颖而出。它能够处理fast5文件或BAM文件作为输入,输出包含甲基化位点信息的结果文件,其主要参数的灵活运用是掌握f5c的关键。原创 2024-12-02 22:12:36 · 637 阅读 · 0 评论 -
2024.12.02.【读书笔记】|miRDeep2快速安装使用教程
miRDeep2是一个用于从小RNA测序数据中发现已知和新的miRNA的分析工具。它包含了多个模块,可以对测序数据进行预处理、比对到参考基因组、检测已知和新的miRNA等。原创 2024-12-02 17:07:44 · 1093 阅读 · 0 评论 -
2024.11.20【读书报告】|multiMiR:microRNA靶基因数据库快速使用教程
在网上看到很多文章,都是在介绍如何通过在线工具获取miRNA的靶基因,为了优化流程,将识别环节也进行标准化处理,在本地运行,本人研究了这个库。multiMiR。原创 2024-11-20 12:01:13 · 979 阅读 · 0 评论 -
2024.11.13【BUG报错】|使用 Clustal-Omega 遇到 Segmentation Faults 报错问题及解决方案
Clustal-Omega 是一款广受欢迎的多序列比对工具,它能够快速、准确地对大量序列进行比对。然而,有时在使用 Clustal-Omega 时会遇到 Segmentation Faults 的报错,这给分析带来了不便。先将序列拆分为多个小文件,然后分别对这些小文件进行比对,最后合并结果。在使用 Clustal-Omega 进行多序列比对时,有时会遇到这种错误,导致比对过程中断。如果序列较长,文件较大,不妨将核苷酸序列经过预测、翻译、去冗余后再进行比对,可以缩短序列长度,也降低了文件大小。原创 2024-11-13 22:04:54 · 584 阅读 · 0 评论 -
2024.09.06【读书笔记】|如何使用 SMRTLink工具对PacBio数据进行细菌基因组组装
SMRT Link 提供了一整套的分析工具,用于处理 PacBio 测序数据。这些工具包括用于数据质量控制、比对,甲基化分析,组装、变异检测和基因表达分析等。参考指南中进行阅读。:用于生成去 novo 组装的细菌基因组。:用于分析小的细菌基因组和质粒。本人第一次组装之后,发现常规命令除了进行组装分析外,还提供motifs和modification analysis,当然这会增加项目整体运行时间(一个样品大概11h)。这部分额外的注释分析可以通过和设置取消后面的步骤。原创 2024-09-07 12:21:58 · 1914 阅读 · 0 评论 -
2024.09.04【读书笔记】|如何使用Tombo进行Nanopore Direct RNA-seq(DRS)分析
首先,需要将原始的纳米孔读取数据(FAST5文件)转换为参考序列对齐的信号。这一步是Tombo分析的第一步,称为“重抖动”(re-squiggle),即将原始纳米孔读取转换为参考序列对齐的信号。可以通过Conda安装Tombo,这是推荐的安装方法。tombo run --input input FAST5文件路径 --output output 输出文件路径 --model model 模型名称其中,input参数指定输入的FAST5文件路径,output参数指定输出文件路径,model。原创 2024-09-04 11:42:07 · 1737 阅读 · 0 评论 -
2024.09.04【读书笔记】|如何使用GATK ASEReadCounter工具进行ASE(等位基因特异性表达)分析
注意:早期samtools版本格式在排序步骤命令可能会发生报错,原因是-o的作用是作为输出文件的前缀而不是输出文件。📚 我承诺,将持续为您带来深度与广度兼具的数据科学内容,让我们一起在知识的海洋中遨游,发现更多未知的奇迹。🌐 点击下方的微信名片,获取本书资料,加入交流群,与志同道合的朋友们一起探讨、学习和成长。🔔 关注我的账号,不错过每一次知识的分享和探索的旅程。原创 2024-09-04 10:23:58 · 729 阅读 · 0 评论 -
2024.09.03【代码实现L1】|使用AI助手0编程基础写脚本
示例中还有很多可以优化的地方,比如输出文档的名称没有要求、输出参考格式应当强调列名的统一(或者说不应该用参考二字),实际情况是我生成的代码将statistics.txt里面所有的结果都做了一行进行汇总统计,而不是我指定输出的五列结果(AI助手生成的代码已是二次调整后生成)。另外这里只是一个示例,需要读者自己选择在哪里执行脚本来运行。通过向AI助手提供清晰的指令和要求,即使是没有编程基础的生信小白也能够获得一个定制的统计脚本。记住,与AI助手的沟通越明确,生成的代码就越能满足你的需求。原创 2024-09-03 18:25:32 · 1006 阅读 · 0 评论 -
2024.08.26【读书笔记】|使用GATK进行等位基因特异性表达分析
它基于单核苷酸多态性(SNP)的分析,通过比较不同群体中同一等位基因的表达水平,揭示基因表达的变异性。GATK,一款专业的SNP检测工具,其ASEReadCounter命令为精确的等位基因特异性表达分析提供了强有力的支持。:ASEReadCounter工具的核心功能是计数映射到每个等位基因的reads,从而量化等位基因的表达水平。在基因型和表型数据分析中,GATK提供了多种分析方法,包括基因型和表型相关性分析、单核苷酸多态性数据分析等,用户可以根据实际情况选择最合适的方法进行组合分析。原创 2024-08-26 19:44:45 · 352 阅读 · 0 评论 -
2024.08.24【读书笔记】|Nanopolish工具命令详细介绍
Nanopolish是一个用于Oxford Nanopore测序数据信号级分析的软件包,它不仅可以提高初步组装的基因组共识序列质量,而且能够检测碱基修饰,如m6A。通过上述大纲,我们希望帮助初学者以及有经验的研究人员更好地理解和应用Nanopolish工具,以促进其在基因组学和相关领域的研究。📚 我承诺,将持续为您带来深度与广度兼具的生物信息学内容,让我们一起在知识的海洋中遨游,发现更多未知的奇迹。在基因组学研究中,应用Nanopolish提升共识序列质量的案例不断涌现,展示其在实际研究中的巨大潜力。原创 2024-08-24 15:26:31 · 933 阅读 · 0 评论 -
2024.08.06【读书笔记】|解决STAR安装中的依赖项冲突
在尝试解决任何问题之前,了解STAR的依赖关系至关重要。STAR主要依赖于标准GCC库,但如果您的系统上已经安装了其他生物信息学工具,可能会遇到版本冲突。原创 2024-08-06 17:30:27 · 311 阅读 · 0 评论 -
2024.08.06【生物信息】|快速安装STAR:生物信息分析的瑞士军刀
STAR是一个强大的工具,适用于多种RNA-seq数据分析任务。通过遵循上述步骤,你应该能够快速安装并开始使用STAR。如果在安装过程中遇到任何问题,上述解决方案应该能帮助你克服大部分障碍。!原创 2024-08-06 17:26:28 · 497 阅读 · 0 评论 -
2021.04.28丨VIM/VI跳转行常用操作
vim/vi操作1.跳到文本的最后一行:按“G”,即“shift+g”2.跳到最后一行的最后一个字符 : 先重复1的操作即按“G”,之后按“$”键,即“shift+4”。3.跳到第一行的第一个字符:先按两次“g”,4.跳转到当前行的第一个字符:在当前行按“0”。5.vi加密。进入vi,输入”:” + “X” 之后就提示你输入两次密码。之后:wq 保存退出。再次进入时就提示你输入密码了。如果你不想要密码了,就:X 提示你输入密码时连续按两次回车,就搞定了。...转载 2021-04-28 14:59:14 · 482 阅读 · 0 评论 -
2020.10.21【转载】丨GWAS全基因组关联分析流程
我梳理了GWAS全基因组关联分析的整个流程,并提供了基本的命令,用到的软件包括BWA、samtools、gatk、Plink、Admixture、Tassel等,在此分享出来给大家提供参考。一、BWA比对1.构建索引bwa index -a is example.fasta #构建索引 -a is算法 (BWT构造算法:bwtsw、is或rb2)2.进行比对bwa mem -t 6 -R '@RG\tID:foo\tPL:Illumina\tSM:example' exampl转载 2020-10-21 15:25:03 · 5382 阅读 · 0 评论 -
2021.05.07丨linux sort 命令详解
sort是在Linux里非常常用的一个命令,管排序的,集中精力,五分钟搞定sort,现在开始!1 sort的工作原理sort将文件的每一行作为一个单位,相互比较,比较原则是从首字符向后,依次按ASCII码值进行比较,最后将他们按升序输出。[rocrocket@rocrocket programming]$ cat seq.txtbananaapplepearorange[rocrocket@rocrocket programming]$ sort seq.txtappleba.转载 2021-05-07 15:06:03 · 177 阅读 · 0 评论 -
2020.08.18【转载】丨叶绿体基因组二代测序组装经验分享
叶绿体基因组二代测序组装(个人经验分享)前段时间,有老师咨询我关于叶绿体基因组组装的问题,虽然本人不才,但也很热心地帮了个忙。虽说中间出了一些小意外,唉唉算了还是不提了。在这里顺便就个人常用的叶绿体基因组组装思路和方法(基于二代测序),给大家作个分享。叶绿体基因组本身不大(平均不到200kb),所以使用二代测序,在高深度测序模式下,配合一个有效的参考基因组,理论上足以组装出一条完整的环状序列出来(10个里面9个可以吧)。当然,只单纯地通过组装软件自动拼接基本上是不可能实现的(主要是IR区的问题.转载 2020-08-18 16:49:01 · 23093 阅读 · 8 评论 -
2021.05.12丨YAML 入门教程
目录摘要基本语法数据类型YAML 对象YAML 数组复合结构纯量引用摘要YAML 是 "YAML Ain't a Markup Language"(YAML 不是一种标记语言)的递归缩写。在开发的这种语言时,YAML 的意思其实是:"Yet Another Markup Language"(仍是一种标记语言)。YAML 的语法和其他高级语言类似,并且可以简单表达清单、散列表,标量等数据形态。它使用空白符号缩进和大量依赖外观的特色,特别适合用来表达或编辑数据结构、各转载 2021-05-12 11:19:28 · 203 阅读 · 0 评论 -
2024.06.23【读书笔记】丨生物信息学与功能基因组学(第十七章 人类基因组 第四部分)【AI测试版】
本部分探讨了人类基因组计划所引发的伦理、法律和社会问题(ELSI),这些问题涉及基因信息的所有权、隐私权、基因歧视以及基因技术在社会中的运用等方面。原创 2024-06-23 00:00:00 · 160 阅读 · 0 评论 -
2024.06.23【读书笔记】丨生物信息学与功能基因组学(第十七章 人类基因组 第三部分)【AI测试版】
本部分基于2001年国际人类基因组测序联盟(IHGSC)发布的人类基因组测序及分析草图,从生物信息学角度深入讨论了人类基因组的结构特征和分析方法。同时,提及了塞莱拉公司(Celera Genomics)版本的人类基因组草图及其发现,强调了比较基因组学在理解人类基因组中的重要性。原创 2024-06-22 16:32:46 · 247 阅读 · 0 评论 -
2024.06.22【读书笔记】丨生物信息学与功能基因组学(第十七章 人类基因组 第二部分)【AI测试版】
第二部分深入总结了人类基因组计划的关键发现,并介绍了用于探索人类基因组的网络资源。这些结论不仅为我们理解人类生物学提供了新的视角,而且揭示了人类基因组的复杂性和动态性。原创 2024-06-22 16:22:48 · 205 阅读 · 0 评论 -
2024.06.22【读书笔记】丨生物信息学与功能基因组学(第十七章 人类基因组 第一部分)【AI测试版】
第十七章深入探讨了人类基因组的复杂性、测序历程以及其对现代科学的意义。人类基因组由约30,000至40,000个蛋白质编码基因组成,这些基因的表达和变异构成了我们生物学特征和疾病倾向的基础。本章节详细回顾了人类基因组计划的重要里程碑,包括DNA双螺旋结构的发现、基因组测序的完成,以及生物信息学在这一过程中的关键作用。原创 2024-06-22 16:19:02 · 361 阅读 · 0 评论 -
2024.06.20【读书笔记】丨生物信息学与功能基因组学(第十六章 真核生物基因组 第四部分)【AI测试版】
真核生物基因组的比较分析有助于揭示不同物种间的进化关系和生物学特性。通过比较不同物种的基因组序列,可以发现保守的基因区域和快速进化的基因家族。原创 2024-06-21 10:33:34 · 379 阅读 · 0 评论 -
2024.06.20【读书笔记】丨生物信息学与功能基因组学(第十六章 真核生物基因组 第三部分)【AI测试版】
了解到您的需求,现在我将为您撰写关于《生物信息学与功能基因组学》的第三部分读书笔记。原创 2024-06-21 10:31:56 · 639 阅读 · 0 评论