- 博客(280)
- 收藏
- 关注
原创 Shannon 熵
该函数以 cluster–batch 分布为基础,计算并标准化 Shannon entropy,用于定量评估单细胞聚类中的样本混合程度,并以信息量充足的可视化形式输出,是批次效应评估的规范实现。改成支持多分辨率 clustering输出PDF + CSV或重写为Seurat 对象直接输入的版本。
2025-12-25 11:32:06
384
原创 统一维度参考文章
狭义遗传力(h2h^2h2)的估算方法遵循了其他地方概述的步骤 (De Villemereuil et al., 2013)。简而言之,对于 Marand 等人 (2025) 中定义的每个B73 参考 ACR,我们首先使用DESeq2(Love et al., 2014) 对所有采样的基因型之间的染色质可及性进行比较。
2025-12-12 16:59:50
1032
原创 03.玉米单细胞分辨率的顺式调控图谱
顺式调控元件(CREs)编码了时空基因表达程序的基因组蓝图,使细胞能够执行高度特化的功能。本研究利用六个玉米器官的单细胞组学技术,系统鉴定了决定不同细胞身份的顺式与反式调控因子,并通过解析转录因子(TF)组合模式、识别具有非细胞自主活性的TF以及揭示调控高阶染色质互作的TF,阐明了染色质组织的协调机制。研究发现,细胞类型特异的CRE显著富集增强子活性,并主要位于未甲基化的长末端重复序列(LTR)逆转录转座子内。
2025-12-12 13:43:32
262
原创 05.地面组织调控回路决定玉米与狗尾草的器官复杂度
大多数植物的根都拥有多层皮层,这些皮层构成了器官的主体,并在耐涝、共生等生理过程中发挥关键作用。然而,除拟南芥这种高度简化的模式植物外,我们对其他物种皮层层次的形成机制知之甚少。本研究利用单细胞RNA测序快速构建了玉米根的单细胞分辨率图谱,发现组织形成关键转录因子SHORT-ROOT(SHR)在玉米中呈现出一种新的空间分布模式:其表达区域紧邻一个显著扩张的皮层。我们进一步证实,玉米SHR蛋白具有超高迁移能力,可向外扩散至少八个细胞层进入皮层。
2025-12-11 17:56:37
325
原创 01.泛禾本科转录组揭示作物细胞分化模式
禾本科内的不同植物物种曾是平行驯化的对象,孕育出具有各自演化历史和性状的作物。这些物种的关键性状往往由特化的细胞类型介导。本研究比较了三种禾本科植物——玉米(Zea mays)、高粱(Sorghum bicolor)和狗尾草(Setaria viridis)根细胞的转录组。我们发现,单细胞与单核RNA测序在双子叶与单子叶植物中能提供互补的细胞身份信息,因此有必要将两者联合分析。通过跨物种细胞类型映射,我们鉴定出稳健且保守的直系同源标记基因。
2025-12-10 15:59:36
838
原创 GenomicRanges 修改 GTF 文件学习笔记
修改染色体前缀:使用和包,我们可以方便地加载、操作和保存基因组注释文件(如 GTF 文件)。GRanges类的强大功能GRanges提供了丰富的操作方法,可以用于处理基因组范围数据、筛选感兴趣的区域、进行范围运算等。
2025-12-09 16:57:48
333
原创 结构多样的玉米基因组中长程相互作用的保守性与变异性
染色质相互作用在基因调控中发挥着关键作用。不同玉米自交系的基因组展示了显著的结构变异,然而,F1 杂交种表现出显著的杂交优势。不同自交系及其杂交后代中的长程基因组相互作用尚未在玉米中进行评估。在这项研究中,我们在两个玉米自交系及其互交的 F1 杂交种中进行 H3K4me3/H3K27ac HiChIP 分析。我们识别了特定于自交系或杂交基因型的相互作用。一些参与杂交特异性相互作用的基因表现出显性或超显性表达模式。
2025-12-04 09:55:32
1032
原创 【无标题】
9//4=2,向下取整意味着取不大于该数的最大整数,而非简单截断小数。不同类型变量的定义及判断,判断方法 => type()所谓的格式化输出即按照一定的格式输出内容。格式化字符串除了%s,还可以写为f‘{表达式}’
2025-11-30 15:12:37
162
原创 seqtk常用命令
seqtk提供了一些非常实用的功能,如格式转换、抽样、统计、提取等。你可以根据自己的需求选择合适的命令来处理 FASTA 或 FASTQ 文件。
2025-11-21 11:52:13
321
原创 samap_map_genes.sh
解析参数 → 获取输入文件、类型、物种 ID、线程创建输出目录构建 BLAST 数据库(如果不存在)根据类型组合选择 BLAST 命令(blastp/blastx/tblastn/tblastx)双向比对 → 输出 tabular 文件,用于 SAMAPf_maps✅核心作用生成跨物种基因/蛋白的映射文件(双向),为 SAMAP 跨物种单细胞映射提供输入。
2025-11-05 14:40:59
855
原创 导出 Seurat 对象为 Matrix Market 格式
📘prefix.mtx下面把整个导出过程封装为一个函数方便在 R 脚本或交互式分析中直接调用。
2025-11-02 17:07:30
200
原创 ArchR——TSS_by_Unique_Frags.pdf
为什么需要这个 PDF可视化每个样本中每个细胞的质量分布。直观选择过滤阈值(fragment 数量和 TSS 富集)。ArchR 官方做法内部会生成该 PDF。如果没有生成,可以通过源码逻辑自行绘制。学习价值理解单细胞 ATAC QC 指标。学习如何用ggPoint绘制高密度散点图。掌握批量处理多个样本的思路。
2025-10-24 12:22:05
702
原创 SNATAC 建索引——minimizers上限
进行 ATAC-seq 单细胞分析时,第一步是为参考基因组构建索引(chromap 索引),以便后续比对。:生成 TSS 上下游 ±2000bp 的 promoter 区间。:参考基因组太大,窗口过小 → minimizer 数量超上限。当参考基因组太大(如 14.7Gb 小麦全基因组)且使用。:遇到 minimizer 数量超上限问题时,尝试增大。时,生成的 minimizer 数量超过上限。数量有上限(约 2^31 ≈ 2.1G)。:记录每条转录本起始位置(TSS)信息。
2025-10-22 11:39:51
330
原创 Conda_bashrc 初始化机制学习笔记
优先级加载方式特点①最现代方式,动态注入函数②旧式兼容方式③最低限度,手动可用Conda 初始化代码 =动态加载 → 回退加载 → 保底 PATH让能修改当前 shell 的环境。
2025-10-20 16:14:15
312
原创 Seurat—FindClusters—algorithm聚类算法学习笔记
在 Seurat 分析流程中,用于根据细胞邻接关系图(KNN graph)进行聚类,将相似的细胞划分为亚群(clusters)。通常在项目结论聚类核心算法基于图的社群检测(Graph-based community detection)Louvain快速但略不稳定改进版 Louvain,更稳Leiden当前最推荐算法(默认首选)分辨率控制簇数量的重要参数根据细胞相似性图进行社群检测;其中Leiden 算法(algorithm=3)是当前最稳定、最推荐的聚类方法。
2025-10-09 11:40:40
498
原创 R---------split()` 函数
split()的作用:👉 按照某个分组因子(factor/向量),把一个向量、数据框或列表拆分成子集,结果返回一个list。
2025-09-17 10:07:43
432
原创 批量查找差异基因对应文件并整合
Shell 部分:批量查找基因对应文件,生成中间文件。R 部分:读取中间文件并整合回 DEG 数据框。适用场景:当有大量 DEG 文件,需要统计每个目标基因在哪些分析结果中出现时。如果你希望,我可以帮你写一个统一函数版,Shell + R 自动处理多组基因和文件,最终生成所有,免去重复手动操作。你希望我写吗?
2025-09-05 11:37:35
510
原创 slurm转投
scontrol:Slurm 的管理工具,可动态修改作业/节点参数。scontrol update JobId=<ID> <参数1=值1> <参数2=值2> ...JobId:指定目标作业。Partition:指定作业在哪个分区运行。:限制每个节点的最小内存需求 (单位 MB)。本例:把某个作业迁移到node01分区,并要求该作业每个节点至少 8 GB 内存。要不要我帮你整理一个常见的参数速查表(比如PriorityTimeLimitNumCPUs。
2025-09-04 15:00:22
466
原创 向参考基因组添加序列
awk和 wc是强大的文本处理工具,可以用于统计文件中每行的长度。seqtk是一个快速、轻量级的工具,适用于处理FASTA和FASTQ文件,支持多种操作,如序列转换和格式化。希望这些学习笔记能帮助你更好地理解和使用这些工具!如果有更多问题,请随时提问。
2025-08-26 16:32:22
468
原创 single cell ATAC(13)ArchR的ChromVAR偏离富集分析
ChromVAR的作用:ChromVAR是一个R包,用于分析单细胞ATAC-seq数据中的转录因子(TF) motif富集情况。它可以帮助我们预测在感兴趣的细胞类型中哪些调控元件最为活跃。ChromVAR的局限性:ChromVAR最初是为早期单细胞ATAC-seq数据开发的,这些数据通常只有几百个细胞。随着技术的发展,现在的实验可以产生成千上万个细胞的数据,这使得ChromVAR在处理大规模数据时面临内存和计算速度的挑战。ArchR的解决方案。
2025-08-25 11:40:06
1160
原创 ArchRProject数据结构
Slot 名称类型访问方式修改示例SimpleListSimpleList只读DFrameSimpleListDFrameSimpleListpeakSetGRanges赋值新的 GRangesreductionslist赋值新的 DimReducsparseMat赋值新矩阵GRanges赋值新 GRangeschromSizesGRanges赋值新 GRangesGRanges赋值新 GRangesGRanges赋值新 GRanges。
2025-08-24 10:41:38
375
原创 R语言rbind()和cbind()使用
行数 = nrow(a) + nrow(b),列数不变。:列数 = ncol(a) + ncol(b),行数不变。:纵向(按行)堆叠,行数相加。:横向(按列)拼接,列数相加。:a 与 b 的列数必须一致。:a 与 b 的行数必须一致。
2025-08-24 10:29:48
649
原创 Monocle之CellDataSet结构
• 是什么:基因×细胞的 raw count 或 normalized 表达矩阵(稠密 matrix 或 sparse Matrix)。• 是什么:细胞×细胞距离矩阵(通常用 Reversed graph embedding 算出的)。• 是什么:mean-dispersion 拟合表(做负二项建模前计算的)。• 是什么:一个 igraph 对象,存 MST 的边、权重、节点名。• 是什么:表达量阈值(如 0.1)用于定义“检测到/未检测到”。• 是什么:基因×基因距离矩阵(做基因聚类时用)。
2025-08-22 14:01:41
934
原创 单细胞多组学揭示了根部毛发对盐胁迫的特异性反应
为了进一步探索铁缺乏对盐诱导的叶片卷曲和发黄的贡献,我们使用了芜菁黄花叶病毒(TuMV)为基础的病毒诱导基因沉默(VIGS)系统(pTY),并在 NHCC 植物中沉默了 BcIRT2 基因(Yu et al., 2018)。在盐胁迫后,pTY 和 BcIRT2-VIGS 植物的叶片和根毛中的铁含量均降低(图 6b、c),并且在胁迫条件下,pTY 和 BcIRT2-VIGS 植物之间的铁含量和根毛长度没有显著差异(图 6c、S18d)。识别了以转录因子(TF)为中心的调控模块(regulons)。
2025-08-18 17:14:51
1040
原创 seuratv4数据结构
通过以上步骤,你可以完成一个完整的单细胞数据分析流程,从加载数据到保存结果,每一步都详细记录了数据结构的变化。希望这个流程图和逐步讲解能帮助你更好地理解Seurat V4的数据结构和分析流程。
2025-08-18 15:27:16
408
原创 single cell ATAC(12)ArchR进行motif和特征富集分析
第十二章就是:把 peak 区间当成“探针”,去公共/自定义注释库里“钓”转录因子或任何外部特征,钓到的显著结果用一张热图或条形图告诉你“谁可能在这些 peak 里说了算”。
2025-08-18 14:22:10
644
原创 single cell ATAC(10)ArchR做 Peak Calling
用第九章的“拟混池重复”→ 先各组内 call peak → 再跨组 iterative overlap 合并 → 得 501 bp 固定宽、高可信统一 peak 列表 → 封装成 PeakMatrix,下游差异/富集分析即可直接开工。
2025-08-18 13:58:01
1118
原创 single cell ATAC(9)ArchR把单细胞 ATAC-seq 做成pseudo-bulk
第九章教你把稀疏单细胞信号变成可统计的“假 bulk”:先理解需求 → 再让 ArchR 用 5 级策略挑最优方案 → 最后用一键落地。
2025-08-18 13:37:13
536
原创 single cell ATAC(8)ArchR使用scRNA-seq定义cluster类型
只需确保本地已有一份名为的 Seurat 对象即可继续。
2025-08-18 13:33:29
642
原创 single cell ATAC(7)ArchR的基因得分和标记基因
一句话总结:先算基因得分 → 按 cluster 找标记 → 画热图 & UMAP → MAGIC 降噪 → 浏览器验证 → 交互浏览。所谓的基因得分,本质上就是用基因附近的调控元件去预测基因的表达量。ArchR的亮点在于,它允许用户提供复杂的自定义的距离加权开放性模型去计算这些基因得分≈ 把 ATAC 的开放片段按‘距离 TSS 远近’和‘基因长短’折算成一份‘伪表达’,用来在 ATAC 数据里找 marker 基因。
2025-08-18 12:15:34
1058
原创 single cell ATAC(6)ArchR二维可视化与批次质检
我们使用plotEmbedding函数绘制UMAP图,设置embedding=“UMAP”。通过修改colorBy和name来告诉ArchR使用给定哪个元信息矩阵的列对细胞进行上色。p1是按照样本进行上色。使用@操作符可以从ArchRProject中列出有哪些可用的embedding,如projHeme2@embeddings。
2025-08-18 11:28:18
313
原创 single cell ATAC(4)ArchR降维分析
先 LSI把稀疏高维数据压到 30 维 →迭代 LSI去噪提特征 →(可选)近似 LSI加速大样本 →(可选)Harmony去批次 →UMAP/t-SNE得二维图,为下游聚类与注释奠基。
2025-08-18 10:46:30
804
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅