- 博客(98)
- 资源 (16)
- 收藏
- 关注
原创 在Linux环境下安装ArchR踩坑记录
摘要:ArchR单细胞ATAC-seq分析工具的离线安装方法。针对网络受限环境,提供三种解决方案:(1)下载源码ZIP包本地安装;(2)使用conda创建R4.1.3环境;(3)分步安装Bioconductor和CRAN依赖包。重点解决安装过程中的常见报错,包括系统依赖缺失、包安装失败等问题,并推荐使用conda预编译二进制包替代源码编译。最后通过加载测试验证安装成功。该方法适用于集群环境下的稳定部署。
2025-09-26 10:49:20
496
原创 【Cell】维管植物统一细胞图谱揭示细胞类型基础基因并加速基因发现 文献分享
本文摘要:本研究通过构建涵盖六大维管植物类群的茎尖单细胞图谱,开发了一种创新的跨物种基因发现策略。研究团队利用改进的无需参考基因组scRNA-seq分析流程,成功构建了裸子植物(油松)、蕨类(肾蕨)和石松类(马尾卷柏)的参考图谱,并与拟南芥、水稻进行整合分析。研究揭示了维管植物保守的细胞类型基础基因集,并鉴定出新型X8结构域蛋白SECBs和JULGI-LIKE基因作为韧皮部发育的关键调控因子。特别值得注意的是,在蕨类和裸子植物中首次发现了类似被子植物伴胞的细胞类型。研究还开发了维管植物自动化细胞注释工具XS
2025-09-11 14:00:00
854
原创 【计算机科学】基于BERT与Bi-LSTM融合注意力机制的中医病历文本的提取与自动分类
本文针对中医病历文本利用率低、信息抽取难度大的问题,提出一种BERT+Bi-LSTM+Attention融合模型。通过BERT预训练获取文本向量,结合双向LSTM和注意力机制捕捉上下文特征,在中医院病历数据集(13个类别,6118条数据)上实现了89.52%的F1值。实验表明:1)BERT预训练效果显著优于Word2Vec;2)Bi-LSTM+Attention模型优于传统LSTM。该模型能有效处理中医文本上下文关联紧密的特点,为临床信息抽取提供新方法。未来将优化数据标注质量并解决类别不平衡问题。
2025-09-10 14:00:00
1287
原创 【Scientific Data 】紫茎泽兰的染色体水平基因组组装
本研究成功构建了紫茎泽兰(Ageratina adenophora)高质量染色体水平基因组,总大小3.82Gb,包含51条染色体的单倍型解析组装,scaffold N50达70.8Mb。通过多组学技术揭示该入侵物种基因组特征:76.44%为重复序列,预测123,134个蛋白编码基因(99.03%完成功能注释),并发现46个超大型结构变异(>1Mb)。特别鉴定出近期LTR反转座子爆发事件,为解析其入侵适应性机制提供重要遗传基础。该基因组填补了菊科入侵植物研究的空白,为防控策略制定和作物改良提供宝贵资源。
2025-09-09 14:00:00
687
原创 【npj science of food】基于机器学习的模拟罐头肉环境的酿酒酵母发酵过程中挥发性化合物谱的预测—
摘要 本研究创新性地结合机器学习与发酵技术,构建两阶段集成模型预测酿酒酵母发酵产物中的关键挥发性化合物,以模拟罐头肉香气。通过主成分分析(PCA)和SMOTE技术优化数据质量及平衡样本分布,筛选出7种关键挥发性化合物(如辛酸乙酯、苯甲酰基异硫氰酸酯等)。第一阶段分类模型(GBDT、SVM、RFC)中,GBDT表现最优(准确率97%,AUC 0.99);第二阶段回归模型(GBDT、SVM、RFR、KNR)中,GBDT预测性能最佳(皮尔逊系数0.80)。模型联动分析表明,特定发酵条件(如pH 6.0、转速400
2025-09-08 14:00:00
909
原创 【New Phytologist】单细胞多组学揭示根毛对盐胁迫的特异性响应文献分享
本研究利用单细胞测序技术构建了不结球白菜根尖在盐胁迫下的转录组与染色质可及性图谱。研究发现,盐胁迫会干扰根毛分化进程,导致大量根毛停滞在未成熟状态,阻碍胁迫响应基因表达。跨物种分析表明,盐胁迫和渗透胁迫均会抑制根毛的分化与伸长。研究还发现高盐环境会抑制根毛的铁转运功能,特别是金属转运基因BcIRT2的表达显著下调。基因沉默实验证实BcIRT2缺失会导致叶片黄化、盐敏感性增强及根部铁含量降低。该研究为理解植物盐胁迫响应机制提供了新见解,并为培育耐盐作物提供了重要参考。
2025-09-07 14:00:00
1660
原创 【Gigascience】时空转录组测序探索小鼠心脏发育的细胞与分子基础
本研究利用空间转录组测序技术(Stereo-seq)构建了小鼠心脏早期发育的时空细胞图谱,揭示了心脏发育过程中的关键细胞和分子变化。研究发现,随着心脏成熟,心肌细胞与成纤维细胞间的相互作用逐渐减弱,同时鉴定出可能与心肌再生能力丧失相关的基因(如Igf2、H19)及其调控因子(如Tcf12、Plagl1)。此外,研究还发现了区分左、右心房的标志基因(如Adamts8、Bmp10),为理解心脏不对称性提供了新见解。该研究不仅系统描绘了心脏发育的细胞动态变化,也为心脏再生研究提供了重要资源。
2025-09-06 20:35:06
968
原创 【Cell Systems】SpotGF空间转录组去噪算法文献分享
摘要 本研究提出SpotGF,一种基于最优传输理论的基因过滤算法,用于解决空间转录组学(SRT)数据中由mRNA扩散引起的噪声问题。SpotGF通过量化基因表达的空间扩散程度,区分高扩散的“无效基因”(噪声)与聚集表达的“有效基因”,并仅过滤前者,保留原始数据以避免插补引入的假阳性。实验表明,SpotGF在聚类分析、标记基因识别及肿瘤细胞检测中均优于传统方法(如Magic、Sprod),显著提升数据质量。例如,在结直肠癌数据中,SpotGF将肿瘤相关基因的检出比例从3.6%提升至9.7%,并发现37个与患者
2025-09-05 14:11:15
713
2
原创 DoubletFinder报错小结
DoubletFinder是一个R包,用于预测单细胞RNA测序数据中的双重细胞(doublets)。DoubletFinder实现了与Seurat版本2.0及以上版本的接口。
2024-11-04 20:11:50
3390
原创 【OrthoFinder】直系同源基因分析工具
它是一个快速、准确和全面的比较基因组学工具。可以找到直系同源基因群和直系同源基因,为所有直系同源基因群推导出有根的基因树,并确定这些基因树中的所有基因复制事件。它还为被分析的物种推导出有根的物种树,并将基因树上的基因复制事件映射到物种树的分支上,为比较基因组分析提供全面的统计数据。它使用简单,运行它所需要的只是一组FASTA格式的蛋白质序列文件(每个物种一个)它与其他直系同源推断软件不同,OrthoFinder使用基因树。这意味着你可以在它所来自的基因树中检查每个直系同源关系。
2024-03-03 19:40:00
4248
原创 【 10X summary report】怎么看?详细解读笔记
在开始正式的分析之前,需要查看在对齐和计数过程中生成的任何总结统计信息。下图是由Cell Ranger工具创建的10X总结报告,在从10X scRNA-seq实验生成计数矩阵时会生成。下图为本人使用CellRanger V5.2.0对语一个单细胞数据跑出的结果。
2024-03-03 12:32:45
2611
原创 【降维算法UMAP】调参获得更适合的低维图
为什么要降维:单细胞转录组数据往往是数千*数万(细胞数*基因数)的矩阵数据,降维可以帮助可视化和理解大型高维数据集。降维算法:在单细胞转录组生信分析中,常见的降维算法有两种,UMAP和T-SNEUMPA运算速度会更快,并且在保留数据结构的同时提供了更好的扩展性。UMAP的主要步骤学习高维空间中的流形结构找到该流形的低维表示,优化低维图。
2024-03-03 12:20:46
10121
原创 【AUCell打分】:评估一个基因集在单细胞转录组的每个细胞中特定的活性程度
AUCell使用曲线下面积来计算输入基因集的一个有意义的基因子集是否在每个细胞的表达基因中富集。AUC 分数在所有细胞中的分布允许探索特征的相对表达。由于评分方法是基于排名的,因此 AUCell 与基因表达单位和归一化程序无关。此外,由于细胞是单独评估的,因此可以很容易地应用于更大的数据集。
2024-02-28 23:29:36
11373
原创 【R包报错】使用sceasy包转换rds文件与h5ad文件报错PyType_GetFlags
【代码】【R包报错】使用sceasy包转换rds文件与h5ad文件报错PyType_GetFlags。
2024-02-28 23:04:43
1465
原创 机器学习笔记(8)——数据预处理&特征工程
机器学习笔记(8)——数据预处理&特征工程1. 数据预处理1.1. 数据无纲量化1.2.缺失值1.3. 处理分类型特征1.4.处理连续型特征2. 特征选择2.1.过滤法fliter2.1.1方差过滤2.1.2卡方过滤2.1.3选取超参数K过滤2.1.4F检验过滤2.1.5互信息法过滤2.2.embedded嵌入法2.3.wrapper包装法
2022-05-20 13:39:35
1622
2
原创 机器学习笔记(7)——决策树&随机森林代码
机器学习笔记(7)——决策树&随机森林代码本文部分图片与文字来源网络或学术论文,仅供学习使用,持续修改完善中。目录机器学习笔记(7)——决策树&随机森林代码1、决策树python写决策树sklearn实现决策树分类器sklearn实现决策树回归器2、随机森林sklearn实现随机森林分类器sklearn实现随机森林回归器sklearn用随机森林回归填补缺失值1、决策树决策树(Decision Tree)是一种非参数的有监督学习方法...
2022-05-02 12:04:37
5589
原创 机器学习笔记(6)——线性回归&逻辑回归
1、线性回归西瓜书线性回归代码sklearn实现一元线性回归sklearn实现多元线性回归线性判别分析LDA2、逻辑回归损失函数sklearn实现逻辑回归鸢尾花数据集做逻辑回归
2022-05-01 18:40:52
1682
原创 R语言可视化【ggplot2】
ggplot实现各种图形:类别比较:柱形图类别比较:条形图类别比较:克利夫兰点图类别比较:南丁格尔玫瑰图数值关系:散点图数值关系:气泡图数值关系:三维散点/气泡图数值关系:瀑布图数值关系:峰峦图数值关系:相关系数图数值关系:韦恩图数据分布:直方图数据分布:核密度估计图局部整体:直方图/密度图数据分布:散点分布图数据分布:柱形分布图数据分布:箱形图数据分布:小提琴图、雨云图数据分布:显著性标签的箱形图
2022-03-20 20:50:11
18638
原创 【生信】全基因组关联分析(GWAS)原理
【生信】全基因组关联分析(GWAS)1.前提知识介绍1.1 最小二乘法1.2 GWAS的数学原理1.3 Hardy-Weinberg定律&卡方检验1.4 连锁不平衡1.5 曼哈顿图1.6 箱式图Box-plot1.7 QQ plot2、GWAS的定义2.1 几个需要知道的概念:2.2全基因组关联分析3、GWAS——数据预处理3.1质控的原因:3.2基因型数据的质控:3.4表型数据质控:3.5正负链翻转3.6 基因型填补3.7群体分层校
2022-03-12 18:53:01
72746
10
原创 【生信】全基因组测序(WGS)
1、全基因组测序(WGS) 的定义2、GWS流程2.1准备工作——分析软件2.2原始数据质控2.3数据预处理2.4变异检测
2022-03-07 21:30:38
46802
原创 【生信MOOC】生物序列比对工具——多序列比对
【生信MOOC】生物序列比对工具2——多序列比对1、多序列比对的定义和用途2、多序列比对的要求3、多序列比对工具——EMBL - Clustal Omega4、多序列比对工具——EMBL - TCOFFEE - Expresso5、多序列比对的保存格式6、多序列比对结果编辑——jalview7、寻找保守区域:序列标识图 WebLogo8、寻找保守区域:序列基序 MEME9、寻找保守区域:PRINTS 指纹图谱数据库
2022-03-05 17:16:57
28087
5
原创 【生信MOOC】生物序列比对工具
1、需了解的背景知识2、替换计分矩阵核酸替换计分矩阵蛋白质替换计分矩阵3、序列比对方法(1)打点法(2)两两序列比对算法4、在线序列比对工具EMBL 全局双序列比对工具Biotools 的双序列比对工具
2022-03-04 13:54:28
7879
原创 【生信MOOC】生信数据库2
1、一级蛋白质序列数据库:UniProt 数据库2、一级蛋白质结构数据库:PDB数据库3、二级蛋白质结构数据库:结构域家族数据库Pfam4、二级蛋白质结构数据库:结构分类数据库CATH5、二级蛋白质结构数据库:结构分类数据库SCOP26、专项数据库:京都基因与基因组百科全书KEGG
2022-03-03 17:23:51
4589
原创 【生信MOOC】生信数据库1
1、认识生物数据库装载的内容2、生物数据库的分类3、文献数据库——PubMed4、一级核酸数据库——NCBI的Genbank数据库4.1——大肠杆菌dUTPas(脱氧尿苷焦磷酸酶)X01714的DNA序列4.2——编码人dUTPase的成熟mRNA序列U902234.3——编码人dUTPase的dut基因序列。序列AF0184305、一级核酸数据库——基因组数据库Ensemble6、一级核酸数据库——微生物宏基因组数据库JCVI7、二级核酸数据库
2022-03-01 20:32:28
5357
原创 HTML学习笔记
HTML学习笔记1.简介HTML 指的是超文本标记语言:HyperTextMarkupLanguage。HTML 不是一种编程语言,而是一种标记语言(标记语言是一套标记标签(markup tag))<!DOCTYPE html>声明为 HTML5 文档 <html>元素是 HTML 页面的根元素 <head>元素包含了文档的元(meta)数据,如<meta charset="utf-8">定义网页编码格式为utf-8...
2022-03-01 11:08:03
874
原创 【CentOS 7 64位】linux常用命令补充
【CentOS 7 64位】linux常用命令补充1、进程处理命令-ps命令-kill命令2、字符串处理命令-echo命令-grep命令
2022-02-10 15:53:02
366
原创 【生信】生物序列比对
1、生物序列比对介绍2、序列比对算法基于全局匹配的算法(1)打分矩阵(2)动态规划算法(3)Needleman-Wunsch算法基于局部匹配的算法Smith-Waterman算法Smith-Waterman算法与Needleman-Wunsch算法的区别启发式搜索算法BWT((Burrows–Wheeler_transform))算法3、多序列比对介绍
2022-02-09 16:57:33
11166
电子商务知识点总结.docx
2020-01-03
使用HTML+PHP搭建一个生物数据增删查改网站代码
2022-03-28
HTML+PHP搭建一个生物数据增删查改网站使用说明书
2022-03-28
超详细的Java复习知识点2019——个人笔记.zip
2019-06-24
医学统计学笔记——DL.zip
2019-09-18
csharpspider.7z
2019-06-11
超详细数据库系统与概论笔记2019上——个人笔记.zip
2019-08-07
RNA editing restricts hyperactive ciliary kinases.pdf
2021-09-09
c#表决器,选择候选城市,选择可以投票的选项数量,当选择数量为2时,只能选择二个候选城市,程序自动限制复选框的选择数量,按提交后选择的城市显示在编辑框中
2019-05-05
c#草稿纸(记事本)
2019-05-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅