- 博客(252)
- 收藏
- 关注
原创 Monocle之CellDataSet结构
• 是什么:基因×细胞的 raw count 或 normalized 表达矩阵(稠密 matrix 或 sparse Matrix)。• 是什么:细胞×细胞距离矩阵(通常用 Reversed graph embedding 算出的)。• 是什么:mean-dispersion 拟合表(做负二项建模前计算的)。• 是什么:一个 igraph 对象,存 MST 的边、权重、节点名。• 是什么:表达量阈值(如 0.1)用于定义“检测到/未检测到”。• 是什么:基因×基因距离矩阵(做基因聚类时用)。
2025-08-22 14:01:41
430
原创 单细胞多组学揭示了根部毛发对盐胁迫的特异性反应
为了进一步探索铁缺乏对盐诱导的叶片卷曲和发黄的贡献,我们使用了芜菁黄花叶病毒(TuMV)为基础的病毒诱导基因沉默(VIGS)系统(pTY),并在 NHCC 植物中沉默了 BcIRT2 基因(Yu et al., 2018)。在盐胁迫后,pTY 和 BcIRT2-VIGS 植物的叶片和根毛中的铁含量均降低(图 6b、c),并且在胁迫条件下,pTY 和 BcIRT2-VIGS 植物之间的铁含量和根毛长度没有显著差异(图 6c、S18d)。识别了以转录因子(TF)为中心的调控模块(regulons)。
2025-08-18 17:14:51
914
原创 seuratv4数据结构
通过以上步骤,你可以完成一个完整的单细胞数据分析流程,从加载数据到保存结果,每一步都详细记录了数据结构的变化。希望这个流程图和逐步讲解能帮助你更好地理解Seurat V4的数据结构和分析流程。
2025-08-18 15:27:16
293
原创 single cell ATAC(12)ArchR进行motif和特征富集分析
第十二章就是:把 peak 区间当成“探针”,去公共/自定义注释库里“钓”转录因子或任何外部特征,钓到的显著结果用一张热图或条形图告诉你“谁可能在这些 peak 里说了算”。
2025-08-18 14:22:10
408
原创 single cell ATAC(10)ArchR做 Peak Calling
用第九章的“拟混池重复”→ 先各组内 call peak → 再跨组 iterative overlap 合并 → 得 501 bp 固定宽、高可信统一 peak 列表 → 封装成 PeakMatrix,下游差异/富集分析即可直接开工。
2025-08-18 13:58:01
825
原创 single cell ATAC(9)ArchR把单细胞 ATAC-seq 做成pseudo-bulk
第九章教你把稀疏单细胞信号变成可统计的“假 bulk”:先理解需求 → 再让 ArchR 用 5 级策略挑最优方案 → 最后用一键落地。
2025-08-18 13:37:13
374
原创 single cell ATAC(8)ArchR使用scRNA-seq定义cluster类型
只需确保本地已有一份名为的 Seurat 对象即可继续。
2025-08-18 13:33:29
510
原创 single cell ATAC(7)ArchR的基因得分和标记基因
一句话总结:先算基因得分 → 按 cluster 找标记 → 画热图 & UMAP → MAGIC 降噪 → 浏览器验证 → 交互浏览。所谓的基因得分,本质上就是用基因附近的调控元件去预测基因的表达量。ArchR的亮点在于,它允许用户提供复杂的自定义的距离加权开放性模型去计算这些基因得分≈ 把 ATAC 的开放片段按‘距离 TSS 远近’和‘基因长短’折算成一份‘伪表达’,用来在 ATAC 数据里找 marker 基因。
2025-08-18 12:15:34
847
原创 single cell ATAC(6)ArchR二维可视化与批次质检
我们使用plotEmbedding函数绘制UMAP图,设置embedding=“UMAP”。通过修改colorBy和name来告诉ArchR使用给定哪个元信息矩阵的列对细胞进行上色。p1是按照样本进行上色。使用@操作符可以从ArchRProject中列出有哪些可用的embedding,如projHeme2@embeddings。
2025-08-18 11:28:18
211
转载 single cell ATAC(4)ArchR降维分析
先 LSI把稀疏高维数据压到 30 维 →迭代 LSI去噪提特征 →(可选)近似 LSI加速大样本 →(可选)Harmony去批次 →UMAP/t-SNE得二维图,为下游聚类与注释奠基。
2025-08-18 10:46:30
9
转载 single cell ATAC(3)创建ArchRProject
拿到 Arrow → 打包成项目 → 体检 → 贴标签 → 画 QC → 存档 → 去双细胞”完成这 7 步,你就拥有一个干净、可共享、可随时恢复的单细胞 ATAC 项目对象,后续可直接做降维、聚类、peak 差异分析。
2025-08-18 10:34:01
8
原创 MACS2简介
MACS2 是一个基于统计模型的峰值检测工具,用于在 ChIP-seq、ATAC-seq、CUT&Tag 等数据中识别蛋白质(或开放染色质)富集区域。描述单位时间/空间内稀有事件发生的次数。只有一个参数:λ(lambda)=事件的平均发生率(也是方差)。概率质量函数(PMF)在Poisson 基础上再包一层→ 允许 λ 本身也是一个随机变量(Gamma 分布),从而方差 > 均值。两个参数\mu &: \text{均值} \\theta &: \text{离散参数(越小越离散)}
2025-08-17 17:46:30
521
原创 %in%与`==
条件筛选:使用%in%操作符而不是==来筛选多个值。数据质量:在筛选之前检查数据的唯一值,确保没有拼写错误或缺失值。验证结果:在筛选后检查结果的分布,确保筛选条件正确。希望这些学习笔记能帮助你更好地理解和避免类似的错误!如果有任何问题或需要进一步的解释,请随时告诉我。
2025-08-14 12:47:05
850
原创 single cell&sc atac 让样本名、细胞类型和分组更清晰,方便后续画图和统计。
本文介绍如何为整合后的Seurat对象coembed统一数据标签,包括:1)将RNA和ATAC样本名合并到sample列;2)整合已知和预测的细胞类型到all_celltype列;3)将8个样本分组简化为4个大组(CD_RNA、CK_RNA、CD_ATAC、CK_ATAC)。这些操作旨在标准化元数据,便于后续可视化和统计分析。代码通过条件判断和重新赋值实现了数据的统一归类。
2025-08-11 15:11:46
238
原创 linxu去除参数扩展% vs basename
使用 Bash 参数扩展去掉文件扩展名,性能更好。:使用外部命令basename去掉文件扩展名,更直观但稍慢。你可以根据自己的需求选择使用哪种方法。如果你更喜欢简洁和高效的代码,是一个非常好的选择。希望这个解释清楚地回答了你的问题!如果有其他疑问,请随时告诉我。
2025-08-11 11:50:55
286
原创 screen
掌握screen可以显著提升服务器工作效率,尤其适合需要稳定执行长时间任务的场景。通过会话持久化、多任务管理和协作共享等功能,screen能够帮助你更高效地管理终端会话。希望这些内容对你有所帮助!
2025-08-10 14:48:04
310
原创 `monocle`包中`detectGenes
设置全局表达检测阈值。计算每个基因在多少个细胞中表达。计算每个细胞中有多少个基因表达。更新对象,使其包含这些新的表达检测信息。这些信息对于后续的单细胞数据分析(如差异基因分析、细胞轨迹分析等)非常关键。
2025-08-10 10:43:47
257
原创 Monocle的`orderCells()`
2-a) 先跑一次自动版,看看有哪些 State。2-b) 把 State 1 设为起点再跑一次。下面按“完整流程 + 常见坑”一步步带你用。是 Monocle(v2)里。
2025-08-08 14:32:11
172
原创 Monocle的plot_cell_trajectory()
里把降维结果 + 最小生成树(MST)一起画出来的函数,用来展示细胞“拟时间”或分化轨迹。就能快速看到细胞分化轨迹;其余参数按需微调即可。给一份“即拷即用”的教程。
2025-08-08 14:27:54
152
原创 sc-atac的基础知识(0)
Arrow 文件存储了单细胞 ATAC-seq 数据的原始信息,包括元数据和序列衍生数据,文件体积较大,存储在磁盘上。ArchRProject 对象是一个内存中的对象,包含了 Arrow 文件的索引和一些高级分析数据,文件体积较小,便于在内存中快速访问和处理。通过使用 ArchRProject 对象,可以高效地访问和管理磁盘上的 Arrow 文件,同时利用内存中的对象进行快速分析。
2025-08-02 18:40:18
587
原创 去重、top_n()、pull()、格式化
是指将变量或数据插入到字符串中,以生成更复杂的文本输出。格式化字符串是处理文本数据时非常重要的工具,可以帮助你生成动态和可读性强的文本输出。是 R 中的基本字符串连接函数,可以将多个字符串连接成一个字符串,并可以指定分隔符。包中的一个函数,用于格式化字符串,类似于 Python 的 f-string。是 R 的内置函数,用于格式化字符串。包中的一个函数,用于按某个列的值排序并提取前 n 行。包中的一个函数,用于从数据框中提取某一列的值为向量。包中的一个函数,用于连接字符串,功能类似于。:动态生成日志消息。
2025-07-31 23:31:31
389
原创 未完待续|植物结构
它是一个植物学名词,主要指植物根的维管柱外围的一层细胞,具有潜在的分裂能力,可参与侧根的形成等过程。指植物根或茎初生构造中,皮层最内侧一圈紧密排列的细胞层,其细胞壁常发生凯氏带(Casparian strip)加厚,控制水分和溶质进入维管束。负责将叶片光合作用产生的有机养分(主要是蔗糖)从源(叶)向库(根、果实、芽等)运输的维管组织,由筛管分子、伴胞、韧皮纤维和薄壁细胞组成。指植物胚胎或幼苗中最早出现的维管束前体分生组织,可进一步分化为初生木质部和初生韧皮部,是根、茎中维管组织的发源地。
2025-07-29 15:49:48
216
原创 水稻调控组全景的综合绘制与建模揭示了复杂性状背后的调控架构
解析调控复杂性状的分子机制是推动作物改良的关键。本研究构建了水稻(Oryza sativa)迄今最全面的调控组图谱,系统描绘了3个代表性品种23种不同组织的染色质可及性景观。我们鉴定出117,176个独特的开放染色质区域(OCRs),占水稻基因组的约15%,该比例显著高于以往植物领域的报道。通过整合配对组织的RNA-seq数据,我们高置信度预测了59,075个OCR-基因调控关联,其中69.54%由增强子介导,并涵盖多个已知的增强子-基因互作案例。
2025-07-27 22:02:29
936
原创 R中匹配函数
grepl是 R 语言中的一个基础函数,而不是tidyverse的函数。它用于检查字符串是否匹配某个模式(正则表达式)。虽然grepl不是tidyverse的一部分,但你可以在tidyverse的工作流程中使用它。grepl。
2025-07-24 11:26:30
451
原创 awk 学习笔记
是一个功能强大的文本处理工具,适用于处理结构化的文本数据。通过掌握基本命令、常用函数和实用脚本,你可以高效地处理和分析数据。希望这些学习笔记对你有所帮助!的知识,包括常用的命令、函数和一些实用的脚本示例。这些内容可以作为学习笔记,帮助你更好地理解和使用。脚本保存为文件,方便重复使用。好的,我将为你总结关于。:确保字段分隔符正确。
2025-07-24 10:59:36
407
原创 `tidyverse` 去除缺失值
在使用tidyverse包处理数据时,去除缺失值(通常表示为NA)是一个常见的操作。tidyverse包提供了一些函数来帮助处理缺失值,例如drop_na()函数,它可以从数据集中删除包含缺失值的行或列。以下是如何使用drop_na()drop_na()dfNAdrop_na()NA。
2025-07-23 09:29:02
221
原创 tidyverse-数据可视化 - 图形的分层语法
通过这些示例和练习,你应该能够理解ggplot2的基本概念,并能够创建各种类型的图形。如果你有任何问题,随时问我!
2025-07-20 23:47:19
696
原创 tidyverse-数据读入
使用read_csv()导入 CSV 文件,可以通过col_types参数显式指定列类型。处理数据导入过程中可能遇到的问题,例如列类型猜测错误和缺失值处理。使用和将数据写入文件以供后续使用。使用tibble()和tribble()手动创建数据框。通过这些工具,你可以高效地导入、处理和保存数据,为数据分析做好准备。
2025-07-20 21:58:29
910
原创 `tidyverse` 长表、宽表的处理
names_to:指定列名对应的变量名,可以使用.value提取变量名。:使用正则表达式匹配列名的结构,提取多个变量信息。names_sep:如果列名是用固定分隔符分隔的,可以使用names_sep参数。通过这些参数,你可以灵活地处理复杂的列名,将宽数据转换为长数据,从而更好地进行数据分析和可视化。整洁数据的重要性:整洁数据格式便于使用tidyverse工具进行分析。数据整理工具:将宽数据转换为长数据。:将长数据转换为宽数据。数据整理的灵活性。
2025-07-20 20:36:40
927
原创 `tidyverse` 中涉及的函数及其用法
函数用于去除重复行,可指定列名以查找特定列的唯一组合。包的核心工具,可以帮助你高效地进行数据转换和操作。函数用于按名称、范围或条件选择数据框中的列。函数用于按一个或多个列的值对数据框进行排序。函数用于基于现有列创建新列,支持数学计算。函数用于按一个或多个变量将数据集划分为组。函数用于根据逻辑条件保留数据框中的行。函数用于保留所有列,仅重命名指定列。函数用于对分组数据进行汇总计算。函数用于从每个组中提取特定行。函数用于移动列的位置。
2025-07-20 20:20:58
950
原创 9 种常用参数检验
────────────────────────────────────2. 数学模型与公式给定 n 个观测值 x₁,…,xₙ,欲检验H₀:μ = μ₀(μ₀ 为已知常数)H₁:μ ≠ μ₀(或单侧)样本均值 xˉ=(1/n)Σixi\bar{x} = (1/n) Σᵢ xᵢxˉ=(1/n)Σixi样本方差 s2=Σi(xi−xˉ)2/(n−1)s² = Σᵢ (xᵢ - \bar{x})² / (n-1)s2=Σi(xi−xˉ)2/(n−1)检验统计量 t = ( xˉ−μ0)/
2025-07-13 16:41:35
425
原创 文献学习|全面绘制和建模水稻调控组景观揭示了复杂性状背后的调控架构。
解析调控复杂性状的机制对于推进作物改良至关重要。在此,我们提出了一个全面的水稻(Oryza sativa)调控组图谱,涵盖了来自三个代表性品种的23种不同组织的染色质可及性。我们的研究揭示了117,176个独特的开放染色质区域(OCRs),占水稻基因组的约15%,这一比例显著高于之前在植物中的报告。通过整合匹配组织的RNA-seq数据,我们自信地预测了59,075个OCR到基因的联系,其中增强子构成了这些关联的69.54%,包括许多已知的增强子到基因的联系。
2025-07-08 23:08:09
602
原创 wilcoxauc()替代findallmarker()
包中的一个工具,用于快速计算 Wilcoxon 秩和检验和曲线下面积(auROC)。这个函数特别适用于单细胞 RNA 测序数据,可以处理多种输入格式,包括密集矩阵、稀疏矩阵、Seurat 对象和 SingleCellExperiment 对象。函数是一个强大的工具,适用于单细胞 RNA 测序数据的差异表达分析。通过支持多种输入格式,您可以轻松地将其应用于不同的数据类型。希望上述指南能帮助您正确使用该函数。如果您有其他问题或需要进一步的帮助,请随时告诉我!如果您的数据是稀疏矩阵(如。首先,确保您已经安装了。
2025-07-08 13:21:01
684
原创 单细胞数据格式转换:rds 与 h5ad互转
将 RDS 格式的单细胞数据转换为 H5AD 格式。将 H5AD 格式的单细胞数据转换为 RDS 格式。
2025-07-07 16:46:41
305
原创 植物发育、适应和进化中的顺式调控元件
顺式调控元件(cis-Regulatory elements)是基因组蓝图的编码者,它们确保了基因表达在时间和空间上的适当模式,这对于正常的发育以及对环境的响应是必需的。越来越多的证据表明,基因表达的变化是真核生物表型创新的主要来源,包括哺乳动物中的急性表型,如疾病和癌症。此外,影响顺式调控序列的遗传和表观遗传变异在更长的进化时间尺度上已成为形态分歧和本地适应研究中的一个反复出现的主题。在这里,我们讨论了识别各种顺式调控元件类别及其在植物发育和环境响应中的作用的功能和方法。
2025-07-03 09:19:02
803
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人