- 博客(257)
- 资源 (4)
- 收藏
- 关注
原创 Orange3实战教程:单细胞---基因评分
基因评分摘要 该组件基于基因表达数据(基因在列,细胞在行)对基因进行评分和筛选。支持多种评分方法:均值(算术平均)、方差(平方偏差)、离散度(负二项分布偏差)和变异系数(标准差/均值)。用户可通过手动选择或自动筛选(如最佳排名基因)确定输出基因,并支持结果自动更新。输出包含筛选后的基因表达数据及评分表,点击表头可排序。适用于单细胞表达谱的基因特征分析。
2025-07-17 08:39:43
2
原创 Orange3实战教程:单细胞---对齐数据集
本文介绍了一种通过相关性可视化实现单细胞数据集对齐的方法。该方法输入单细胞数据,输出对齐后的数据及每个成分的基因数量。支持三种评分方法(皮尔逊相关系数、斯皮尔曼等级相关系数和双权重中值相关)来评估对齐效果,并可选分位数归一化和动态时间规整处理。结果可自动或手动应用。该工具为多数据集整合分析提供了便捷的解决方案。
2025-07-17 08:36:55
1
原创 Orange3实战教程:单细胞---过滤器
过滤器部件用于筛选细胞/基因数据,通过设置表达值阈值移除低频或高频数据。它支持按细胞、基因或零值数据进行过滤,并提供可视化界面调整筛选范围。示例中,该部件将小鼠胚胎干细胞数据集的基因数量从38,293个减少至11,932个,显著简化了数据集。用户可手动设置上下限阈值或使用自动提交功能,过滤后的数据能提高计算效率并优化分析结果。
2025-07-16 08:34:52
4
原创 Orange3实战教程:单细胞---单细胞数据集
摘要 该功能用于从在线存储库获取单细胞数据集,支持自动或手动加载。数据集包含细胞(行)和基因表达或标记(列),下载后存储于本地内存以便离线访问。界面显示可用数据集数量、细胞/基因规模及详细描述。勾选"自动发送数据"将实时推送选定数据(大文件需等待下载),取消勾选则需手动点击"发送数据"按钮加载。适用于灵活调用单细胞数据进行分析。 (字数:149)
2025-07-16 08:31:30
7
原创 Orange3实战教程:生物信息---单样本评分
摘要:单样本评分(ssGSEA)是一种基于单个样本基因表达数据进行基因集富集分析的方法,通过对基因表达矩阵排序计算富集分数。该分析需输入基因表达数据和自定义基因集,输出包含富集分数的结果数据集。典型应用包括分析乳腺癌治疗耐药性样本,结合基因注释和基因集选择工具完成分析流程。工作流示例展示了从数据选择到结果可视化的完整过程,相关文件可下载参考。该方法源于Nature发表的单样本扩展GSEA技术(doi:10.1038/nature08460)。
2025-07-15 10:36:37
11
原创 Orange3实战教程:生物信息---注释器
摘要:注释器小部件功能概述 注释器是一个用于单细胞数据分析的工具,通过标记基因对细胞类型进行自动注释。它接收基因表达数据、二维空间映射和标记基因作为输入,采用曼-惠特尼U检验等方法计算细胞类型归属概率。主要功能包括:1) 支持多种评分方法(FDR值、基因表达量/比例);2) 可调节聚类参数(DBSCAN算法);3) 提供丰富的可视化选项(点属性、簇轮廓、标签显示);4) 支持主数据与次级数据的联合分析。典型应用场景包括骨髓单核细胞分类和细胞周期研究,工作流程可通过交互式界面完成数据注释、选择和结果导出。 (
2025-07-15 10:32:35
9
原创 Orange3实战教程:生物信息---基因标记
本文介绍了标记基因小部件的功能和使用方法。该工具整合了PanglaoDB、CellMarker和DictyBase三大公共标记基因数据库,支持按物种、细胞类型或功能筛选基因。用户可通过交互界面选择目标基因,查看详细信息,并与其他分析工具(如注释器)联动进行细胞类型标注。文章还提供了从GEO数据库加载数据、使用t-SNE可视化到完成细胞注释的完整工作流程示例。所有预处理数据可在线获取,并支持本地更新。该小部件为单细胞RNA测序数据分析提供了便捷的标记基因查询和注释解决方案。
2025-07-15 10:28:27
1131
原创 Orange3实战教程:生物信息---同源基因
同源基因(Homologs)是指具有共同祖先的基因或蛋白质,存在于不同物种中。这个小工具用于查找输入基因在目标物种中的同源基因,支持进化研究和功能分析。输入数据集后,选择目标生物体即可获得同源基因列表。典型应用包括:分析小鼠基因数据时,查找对应的人类同源基因,并通过数据表查看结果。该工具可自动或手动提交,整合到生物信息学工作流中,为比较基因组学和实验设计提供支持。
2025-07-14 08:48:07
10
原创 Orange3实战教程:生物信息---火山图
火山图是一种可视化方法,用于分析基因表达数据的显著性与倍数变化。它在x轴显示倍数变化的对数,y轴显示统计显著性(-log10(p值)),可快速识别显著变化的基因。操作步骤包括选择目标标签、设置属性、调整图形参数和应用探索工具。示例展示了如何通过火山图筛选乳腺癌治疗相关的关键基因,并配合箱线图分析差异表达。该工具适用于高通量数据的快速筛选和可视化分析。
2025-07-14 08:43:11
287
原创 Orange3实战教程:生物信息---聚类分析
摘要: 聚类分析小部件用于识别差异表达基因,支持T检验、曼-惠特尼检验等方法比较特定聚类间的基因表达。用户可配置参数(如P值阈值、基因数量)并选择自定义基因集进行富集分析。示例展示了多西他赛治疗耐药/敏感的乳腺癌数据集分析流程,结果可连接t-SNE可视化或数据表查看。该工具适用于生物信息学中的聚类差异基因挖掘与功能注释。 (字数:150)
2025-07-14 08:38:07
180
原创 Orange3实战教程:生物信息---基因集
摘要:基因集小部件提供从MSigDB、Gene Ontology等数据库选择基因集的功能,支持创建自定义基因集并进行基因富集分析。示例工作流展示了如何导入人类同源基因数据创建自定义基因集,并将其应用于卵巢癌基因表达数据分析。该工具可实现基因注释、基因集筛选及单样本评分等功能,数据预处理为Orange格式并托管于指定链接。
2025-07-11 08:43:44
11
原创 Orange3实战教程:生物信息---基因集富集分析
基因集富集分析(GSEA)是一种用于检测基因集在特定条件下是否显著过度表达的生物信息学方法。该工具通过超几何检验计算用户提供的基因集与参考基因集的匹配显著性,支持多种生物体分析。分析流程包括选择基因集、设置参考基因组和参数后,系统会输出匹配基因及其显著性指标。用户可通过限制匹配基因数量、设置p值和FDR阈值来筛选结果。文中以小鼠恐惧条件反射实验数据为例,展示了如何使用GEO数据集进行基因集富集分析,最终获得基因本体相关的富集报告。
2025-07-11 08:39:58
8
原创 Orange3实战教程:生物信息---KEGG通路
KEGG通路组件使用指南 该组件用于可视化KEGG数据库中的分子相互作用与生物通路。用户输入基因数据后,系统自动映射相关通路,支持按P值排序筛选关键通路。操作选项包括:使用参考数据集、调整图像大小、清除缓存等。示例演示了如何通过该组件分析咖啡因效应数据,并定位到糖尿病并发症相关通路。组件提供交互式探索功能,点击通路名称即可查看详细图谱,帮助用户快速解析基因数据中的生物学意义。 (150字)
2025-07-10 09:20:42
9
原创 Orange3实战教程:生物信息---GO浏览器
GO浏览器是一个用于基因本体(GO)富集分析的工具,可帮助识别基因集相关的生物学过程。它接受聚类基因数据和可选参考数据集作为输入,输出选定GO节点的基因数据和富集分析报告。该工具提供三种GO本体类型选择(生物过程、细胞组分、分子功能),并支持通过P值、FDR和基因数量等参数筛选显著GO术语。用户可选择不同的显著性检验方法和注释基因输出方式,包括直接/间接注释、术语特异性基因或共同术语基因。典型应用场景是将差异表达分析结果输入GO浏览器,识别显著富集的生物过程及其相关基因。
2025-07-10 09:16:26
374
原创 【无标题】Orange3实战教程:生物信息---差异表达分析
该工具提供差异基因表达分析功能,可针对选定实验绘制差异表达图谱。输入基因表达数据(如来自dictyExpress或GEO数据库),通过多种统计方法(包括倍数变化、T检验、方差分析等)对基因进行评分,并设置阈值筛选差异表达基因。输出包含差异表达基因子集、非差异表达基因及带评分的选定基因。用户可调整阈值参数,选择计算零分布,并设置自动提交选项。示例展示了在乳腺癌治疗数据集中的应用,通过默认阈值筛选出具有研究价值的基因。该工具适用于生物信息学研究,帮助识别关键差异表达基因。
2025-07-10 08:46:27
10
原创 Orange3实战教程:生物信息---基因
《基因信息匹配工具使用指南》 该工具用于将基因ID与NCBI数据库中的Entrez ID进行匹配。用户需提供包含基因数据的表格,并指定基因位置(行/列)、Entrez ID和生物分类ID。工具会输出包含基因详细信息的数据表,用户可选择子集进行后续分析。操作时需注意:1)确保数据已正确注释;2)使用"作为特征存储"选项指定基因标签位置。示例展示了如何加载和分析brown-selected.tab数据文件,匹配后可在NCBI查看基因详情。该工具适用于生物信息学数据分析流程。
2025-07-09 10:30:59
82
原创 Orange3实战教程:生物信息---dictyExpress数据库访问
dictyExpress小部件提供对Dictyostelium基因表达数据库的直接访问,允许用户下载Baylor College of Medicine提供的时间序列实验数据。该工具支持实验筛选、数据自动/手动提交等功能,并能清除本地缓存。用户可获取基因表达数据用于后续分析,如数据表展示和热力图聚类。示例展示了如何检索D.discoideum vs.D.purpureum数据并通过k-means方法识别相似基因表达模式。使用该小部件需要保持网络连接。
2025-07-09 09:10:43
6
原创 Orange3实战教程:生物信息---GEO 数据集
GEO数据集组件提供对NCBI基因表达综合数据库的访问。该组件允许用户浏览和下载GEO数据库中的基因表达数据集,并输出为可分析格式。用户可以选择样本或基因作为行,合并基因测量值,并自定义输出名称。组件支持自动/手动提交,提供数据集搜索过滤功能,显示实验描述和样本注释信息。示例展示了如何选择"咖啡因效应"数据集并输出数据供后续分析。所有下载数据集会在本地缓存以便快速访问。
2025-07-08 08:39:26
708
原创 Orange3实战教程:生物信息---数据库更新
摘要:数据库更新组件用于管理和更新本地系统生物学数据库(如基因本体、蛋白质网络等),支持在线更新、批量下载和本地数据集添加。用户可查看数据库详情,选择性更新或从服务器下载全部数据。本地文件可通过指定数据域、生物体和标签进行添加,并存储于缓存目录。该工具集成于Orange平台,提供便捷的生物信息学数据管理功能。(150字)
2025-07-08 08:34:58
13
原创 Orange3实战教程:生存分析---分组
摘要 分组(Cohorts)组件用于生存分析,通过Cox回归模型计算每个数据实例的风险评分,并将其分为高风险和低风险人群。输入为生存数据集,输出新增两个变量:连续型风险评分和二元风险分组。支持三种分层阈值方法(中位数、均值或时序检验)。示例展示了使用乳腺癌数据集进行分组分析,并通过Kaplan-Meier曲线可视化不同风险组的生存差异。
2025-07-07 08:47:45
90
原创 Orange3实战教程:生存分析---生存特征排序
摘要: 生存特征排序模块通过Cox回归评估单变量特征重要性,提供四种统计指标(Log-Likelihood、Log-Likelihood Ratio、p-value、FDR)进行排序,输出精简数据集。示例以德国乳腺癌数据为例,筛选出"阳性淋巴结数量"作为关键特征,结合分布图交互选择患者队列,并通过Kaplan-Meier曲线比较生存差异。该工具支持动态特征筛选与亚组分析,适用于生存数据挖掘。
2025-07-07 08:40:29
131
原创 Orange3实战教程:生存分析---Cox回归
Cox回归是一种常用的生存分析方法,用于研究多个变量对事件发生时间的影响。该方法假设预测变量对生存的影响随时间恒定且具有可加性。在示例应用中,通过德国乳腺癌数据集展示了Cox回归的建模流程:先进行特征选择,保留信息量最高的两个特征,然后使用交叉验证评估模型性能(以一致性指数为指标)。该方法适用于医学研究等领域,能够有效分析多个因素对生存时间的影响。
2025-07-07 08:37:11
155
原创 Orange3实战教程:生存分析---生存曲线图
Kaplan-Meier生存曲线图是用于可视化生存分析结果的工具。它通过估计生存函数,展示特定时间间隔内事件发生的概率。该工具支持基于特征分组比较生存曲线,可显示置信区间、中位生存期和删失数据。用户可交互式选择数据实例进行后续分析。示例展示了德国乳腺癌研究数据,按激素治疗分组比较生存曲线并显示置信区间。该工具基于lifelines包实现,适用于已标记时间和事件变量的生存数据集。
2025-07-04 08:42:15
13
原创 Orange3实战教程:生存分析---作为生存数据
摘要:本文介绍了Orange数据分析工具中的"作为生存数据"功能,该功能允许用户手动选择生存数据集中的"时间"和"事件"作为目标变量。当数据集包含多个生存终点选项(如OS、RFS或PFS)时,该功能特别有用。文章以METABRIC数据集为例,演示了如何通过工作流选择不同的生存终点组合,并最终在数据表中查看结果。该功能为处理包含多个临床终点指标的生存分析数据提供了便捷的解决方案。(149字)
2025-07-04 08:39:11
12
原创 Orange3实战教程:文本挖掘---统计
摘要:统计工具用于为语料库文档添加各类统计特征,包括词数、字符数、N-gram数量、标点符号数等基础指标,以及词性标注、正则匹配等高级功能。用户可通过交互界面灵活添加/移除特征,输出结果可应用于数据分析或增强词袋模型。部分功能需依赖预处理文本生成的词性标注信息。该工具支持自定义统计变量,为文本挖掘提供基础特征构造能力。
2025-07-03 08:43:29
16
原创 Orange3实战教程:文本挖掘---搭配分析
搭配分析是识别语料库中高频共现词组的文本挖掘技术。该方法通过计算双词组合(bigrams)或三词组合(trigrams)的统计显著性来发现固定搭配。分析时需设置频率阈值过滤低频词组,并选择评分方法如点间互信息(PMI)、卡方检验等评估搭配强度。典型应用包括从文档集合中提取出现次数超过指定阈值(如5次)的显著词组,为语言研究和数据探索提供支持。参考文献推荐了Manning和Schütze关于搭配分析的经典著作。
2025-07-03 08:39:48
13
原创 Orange3实战教程:文本挖掘---语义查看器
摘要(145字): 语义查看器是一款文本分析工具,用于识别语料库中与关键词相关的文档片段。用户输入预处理后的文档集合和关键词表,系统通过计算句子级语义相似度(SBERT嵌入向量余弦值)匹配内容,并支持阈值过滤和分级显示(全文/段落/句子)。典型应用场景包括:预处理文本后提取特征词,人工补充关键词(如"princess"等),通过语义匹配定位相关文本(如标记童话故事中的皇室角色段落)。该工具可视化展示匹配文档、分数及上下文,适用于精准文本挖掘与分析。
2025-07-02 09:26:57
14
原创 Orange3实战教程:文本挖掘---本体
本体使用遗传算法生成。算法中使用的**适应度函数 (fitness function)** 通过考虑本体中每个词语与其父节点和兄弟节点之间的两两**余弦相似度 (cosine similarities)** 来确定生成本体的质量。更具体地说,该相似度是基于所述词语的 **SBERT 嵌入 (SBERT embeddings)** 计算得出的。适应度函数还考虑了每个词语的平均子节点数量(以避免本体结构过于扁平或过于深)以及词语与其子节点之间的句法重叠度和各自的长度(此项旨在促使更通用的词语位于较不通用词语的上
2025-07-02 09:20:27
183
原创 Orange3实战教程:文本挖掘---标注语料库地图
Oreange3,文本挖掘,标注语料库地图用于在二维投影中可视化、聚类文档,并用关键词进行标注。
2025-07-01 08:42:03
721
原创 Orange3实战教程:文本挖掘---提取关键词
本文介绍了关键词提取的方法与应用。首先概述了从语料库中提取特征词的基本流程,包括输入参数(文档集合和单词表)与输出结果。重点阐述了四种关键词评分方法:TF-IDF(基于词频和逆文档频率)、YAKE!(先进的无监督方法)、Rake(基于停用词的无监督方法)以及基于SBERT词向量余弦距离的嵌入方法。通过book-excerpts语料库示例,展示了预处理(分词、词形还原等)后使用TF-IDF提取关键词的过程,并说明结果可应用于单词列表编辑或后续分析组件。最后引用了Campos等人和Rose等人的相关研究文献。
2025-07-01 08:35:18
11
原创 Orange3实战教程:文本挖掘---词表工具
词表工具是一款文本分析工具,主要用于创建和管理词语列表。用户可以通过手动输入或从其他文本分析工具导入词语,支持添加、删除、筛选和排序词库功能。该工具提供四种词库更新方式(交集、并集、仅输入、忽略输入),并能将词库保存为本地文件。应用示例展示了如何结合语料库、文本预处理和关键词提取工具,构建自定义词表进行语义分析,最终用于文档主题匹配评分。该工具特别适合需要定制化词语集合的文本挖掘任务。
2025-06-30 09:29:40
10
原创 Orange3实战教程:文本挖掘---重复检测
摘要 重复检测工具通过聚类算法识别语料库中的重复项,支持设置相似度阈值(数值越低要求越高),输出无重复语料库或重复集群。适用于文本数据(如Twitter转发)或结构化数据(如iris数据集),需配合距离计算(如欧氏距离)使用。操作流程包括:加载数据→计算距离矩阵→设置阈值检测→输出结果。可视化界面显示文档数量、聚类选项及集群详情,点击可查看具体重复内容。(150字)
2025-06-30 09:17:54
13
原创 Orange3实战教程:文本挖掘---词汇丰富度分析
**词汇丰富度**功能会显示选定子集与整个语料库相比具有较低 p 值(更高显著性)的词汇列表。p 值越低,表明该词汇在选定子集中越显著(非随机出现)。FDR(错误发现率)与 p 值相关,用于预测结果集中的错误预测比例,即控制低 p 值列表中的假阳性。
2025-06-30 09:13:11
172
原创 Orange3实战教程:文本挖掘---文档地图
摘要(147字) "文档地图"是Orange中的文本分析小工具,用于可视化文档中提及的地理位置分布。它通过识别文本中的国家/首都名称,在交互式地图上以颜色深浅展示提及频率。用户可筛选特定国家关联的文档,支持多选操作。典型应用场景包括新闻数据分析,例如从《纽约时报》文章中提取斯洛文尼亚相关报道后,通过该工具发现德国的高关联性文档,进而结合词云分析内容主题。工具需配合字符串数据使用,提供世界/欧洲/美国三种地图视图,支持缩放和多文档联动分析。
2025-06-30 09:00:25
15
原创 Orange3实战教程:文本挖掘---上下文检索
上下文检索工具用于分析文本语料库中的词语使用情况。该工具能查找特定查询词并显示其在文本中的上下文环境,输出包含该词的所有文档及其上下文表格。主要功能包括:显示文档统计信息(总文档数、标记数、唯一词数)、设置上下文词数范围、精确匹配查询词。典型应用场景包括:分析词语在不同文档中的使用语境,或导出上下文数据供进一步研究。使用时需注意该工具仅匹配完全相同的词形。
2025-06-30 08:55:02
189
原创 Orange3实战教程:文本挖掘---词云生成器
本文介绍词云生成器的功能与应用。该工具通过可视化方式展示文本语料库中的高频词汇,词频越高则字号越大。主要功能包括:1)可调节词云颜色、倾斜角度等参数;2)支持词汇筛选和文档匹配;3)提供词频统计表;4)保存为图片格式。应用场景包括文本数据探索和预处理效果监控,通过与文本预处理部件对比,可观察到词云生成器默认会同时处理词汇和标点符号的特点。该工具为快速掌握语料库特征提供了直观高效的分析方法。
2025-06-27 08:44:31
16
原创 Orange3实战教程:文本挖掘---文档评分
该文档评分组件通过分析词语在文本中的出现情况来评估文档。系统提供三种评分方法(词频统计、词占比、相似度)和多种聚合函数(均值/中位数/最小值/最大值),支持多种输出方式(全部/手动/高分文档)。使用前需进行文本预处理(如分词、词干化等),典型应用场景包括查找与特定词表语义相似的文档。示例展示了如何结合预处理、关键词提取和文档评分组件,计算包含"princess"等关键词的文档得分。组件支持自动发送或手动操作,并提供文档筛选功能。
2025-06-27 08:41:02
16
原创 Orange3实战教程:文本挖掘---LDA主题探索
LDAvis是Orange中基于pyLDAvis实现的LDA主题交互式可视化工具,源自Sievert和Shirley(2014)开发的R包。该工具通过调整相关性参数(0-1)平衡词汇频率和提升度,右侧可视化显示主题词汇排名。示例展示了从文本预处理到主题建模的完整工作流程,包括Corpus、Preprocess Text和Bag of Words组件的组合使用。用户可通过调整相关性滑块交互式探索主题特征,同时在MDS视图中查看主题相似性和分布。该工具为LDA主题分析提供了直观的可视化界面。
2025-06-26 08:46:33
16
原创 Orange3实战教程:文本挖掘---语料查看器
语料查看器是一款用于浏览和分析文本语料库的工具。它可以显示文档集合的基本统计信息,包括文档数量、预处理状态、词性标注情况等。该工具支持正则表达式过滤功能,用户可以根据关键词筛选文档,并选择需要显示的字段。主要特点包括:显示预处理后的词元和词性标签、多字段搜索选项、自动或手动提交查询等。典型应用场景包括查看预处理后的文本数据、按关键词筛选文档,以及进行后续分析。示例展示了如何使用该工具查看包含特定角色名称的文档。
2025-06-26 08:45:49
12
原创 Orange3实战教程:文本挖掘---主题建模
主题建模通过LDA、LSI或HDP算法分析文档集合,自动发现隐含主题结构。组件输入为文档语料库,输出包括带主题权重的语料库、主题词分布及完整主题数据。不同算法特性各异:LSI允许正负权重但解释性较弱,LDA更易解释,HDP参数复杂需谨慎设置。结果可结合词云、热力图等可视化工具分析主题特征及分布。示例显示如何通过预处理文本、选择算法(如提取5个LDA主题),并利用MDS和箱线图探索主题间关系及关键词分布。
2025-06-26 08:37:10
93
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人