- 博客(54)
- 收藏
- 关注
原创 GEO生信数据挖掘(十一)STRING数据库PPI蛋白互作网络 & Cytoscape个性化绘图【SCI 指日可待】
通过 前面十篇文章的学习,我们应该已经可以获取到一个”心仪的基因列表“了,相较于原始基因数量,这个列表的数量已经有了明显的缩小,为了进一步确定Hub gene 需要借助两个工具。使用STRING在线数据库进行PPI分析。使用Cytoscape本地客户端进行蛋白互作关系图绘制。
2023-10-30 19:09:04
12094
2
原创 GEO生信数据挖掘(十)肺结核数据-差异分析-WGCNA分析(900行代码整理注释更新版本)
WGCNA关系网络的构建完毕,绘图找核心基因,Cytoscape 到底怎么玩?
2023-10-18 21:42:10
3092
4
原创 GEO生信数据挖掘(九)WGCNA分析
本例发现右侧有些样本孤立,适合被剔除,设置红线87切割。左侧也被切成两块,需要做处理,保留。#clust#0 1 2#5 57 40#保存数据。
2023-10-16 23:38:54
4626
7
原创 GEO生信数据挖掘(八)富集分析(GO 、KEGG、 GSEA 打包带走)
例子中结核类型,包括结核,潜隐进展,对照和潜隐,四个类别。本节对差异基因进行富集分析。
2023-10-16 22:42:54
5504
12
原创 GEO生信数据挖掘(六)实践案例——四分类结核病基因数据预处理分析
由于,在数据分析过程,你拿的数据样式可能会有不同,本节我们以结核病基因表达数据(GSE107994)为例,做一个实践案例。该数据集的临床形状数据和基因表达数据是单独分开的,读取,和处理都需自己改动代码。
2023-10-10 17:16:33
4196
7
原创 GEO生信数据挖掘(五)提取临床信息构建分组,分组数据可视化(绘制层次聚类图,绘制PCA图)
检索到目标数据集后,开始数据挖掘,本文以阿尔兹海默症数据集GSE1297为例上节,本节介绍提取临床信息构建分组,分组数据可视化(绘制层次聚类图,绘制PCA图)
2023-09-27 23:22:15
9035
4
原创 GEO生信数据挖掘(四)数据清洗(离群值处理、低表达基因、归一化、log2处理)
检索到目标数据集后,开始数据挖掘,本文以阿尔兹海默症数据集GSE1297为例,数据清洗(离群值处理、低表达基因、归一化、log2处理)
2023-09-27 22:17:38
11848
4
原创 GEO生信数据挖掘(三)芯片探针ID与基因名映射处理
检索到目标数据集后,开始数据挖掘,本文以阿尔兹海默症数据集GSE1297为例上节我们发现,存在一个芯片探针ID匹配到多个基因的情况,本节来介绍处理方案。
2023-09-27 21:19:30
7640
原创 GEO生信数据挖掘(二)下载基因芯片平台文件及注释
检索到目标数据集后,开始数据挖掘,本文以阿尔兹海默症数据集GSE1297为例上节我们,但是矩阵行名称是芯片探针需要转换为基因名。
2023-09-27 21:13:52
15345
12
原创 GEO生信数据挖掘(一)数据集下载和初步观察
GEOquery是一个在生物信息学中常用的R语言包,用于从NCBI Gene Expression Omnibus(GEO)数据库中获取和分析基因表达数据。以下是GEOquery包的简介:1. 数据获取:GEOquery包提供了方便的函数来从GEO数据库中获取基因表达数据。您可以使用`getGEO()`函数来下载和导入GEO数据集,包括微阵列和高通量测序数据。2. 数据处理:GEOquery包提供了一系列函数来处理GEO数据集。
2023-09-27 21:08:46
6896
7
原创 不用魔法、使用原生ChatGPT、30秒注册不要绑定任何账号【AskChat.ai】
不用魔法、使用原生ChatGPT、30秒注册不要绑定任何账号【AskChat.ai】
2023-04-19 23:27:31
6736
1
原创 决策树算法:原理与python实现案例
决策树是一种逼近离散值目标函数的方法,学习到的函数使用树结构进行表示,完成决策任务。这里决策树可以是分类树,也可以是回归树。一个决策树一般由根节点、若干内部节点、若干叶子节点构成。叶子节点就是决策结果;每个内部节点对应一个属性测试,每个内部节点包含的样本集合,根据属性测试结构进一步划分,进入该内部节点的子节点;根节点包含全部的训练样本,从根节点到每个叶子节点,对应了一条决策规则。先以一个简单的动物分类任务为例,如何区分鸡和鸭两类动物。我们决策过程应该是思考,鸡和鸭两种动物较为明显的区分特征。
2022-09-15 11:35:13
1454
4
原创 支持向量机:原理与python案例
支持向量机(SVM,support vector machine)是一种二类分类模型,其基本模型定义为**特征空间上的间隔最大的线性分类器**,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。
2022-09-11 00:22:18
1470
原创 回归分析:逻辑斯蒂模型,多分类任务
我们将样本根据类别进行划分,分别训练a与b、a与c、b与c之间的分类器,通过多个分类器判断结果的汇总打分,判断未来样本的类别。上节中,我们使用逻辑斯蒂回归完成了二分类任务,针对多分类任务,我们可以采用以下措施,进行分类。同理,可以训练b类别,非b类别的分类器,确认未来的样本是否为b类;同理,可以训练c类别,非c类别的分类器,确认未来的样本是否为c类;我们可以训练a类别,非a类别的分类器,确认未来的样本是否为a类;本例我们使用sklearn数据集,鸢尾花数据。我们以三分类任务为例,类别分别为a,b,c。
2022-09-08 00:23:39
1621
原创 回归分析:逻辑斯蒂回归模型,非线性分类任务案例
上节中,我们使用逻辑回归模型完成了线性可分的任务,那么,如果线性不可分任务,逻辑回归任务可以完成吗?同样,我们可以将自变量x的数据,进行多项式特征扩展,扩展后的数据特征可以完成非线性分类任务。2.使用预处理函数PolynomialFeatures,构建多项式特征。4.使用contourf绘制等高线,进行分类决策可视化。1.我们尝试使用函数构建两类不能线性划分的随机样本点。
2022-09-06 22:19:44
769
原创 回归分析:逻辑斯蒂回归模型,可视化分类决策边界
前面的例子都是在用线性模型解决回归任务,那么线性模型能否完成分类任务呢?相较于回归任务,分类任务的预测值是离散的,比如二分类问题,可以用0和1来表示两个类别。前面我们也提到了广义线性回归模型的联系函数可以是任意,我们能否构造一个让预测值变为离散值的联系函数g呢?生成的样本有明显的线性边界,我们尝试使用逻辑回归模型,找出决策边界,并进行绘制。其中1表示分类结果为正例,0表示分类结果为反例,而g(z)取值为0.5时,类别可以进行任意判定。由于图形很像一个“S”型,所以又叫 sigmoid曲线(S型曲线)。
2022-09-06 22:18:05
1276
原创 回归分析:多项式回归与广义线性回归,非线性问题的拟合
在实际案例中,我们发现线性回归模型有时很难去拟合一些非线性关系的实际问题,例如自变量x和因变量y之间存在周期性变化规律的场景,比如时间与温度的关系的等。如果我们仍然想使用线性函数进行拟合,又想将实际问题拟合的更好,那么我们可以将线性函数的预测值再做一个非线性函数变换,去逼近真实值,这样我们得到的模型就是。图示中样本点明显具有非线性的规律,在使用一元线性回归模型拟合时,误差极大,我们在模型训练时引入了。这里g函数称为联系函数,理论上g函数可以是任意函数,当g函数被指定为指数函数时,得到的回归模型被称为。
2022-09-06 22:16:23
1250
原创 回归分析:多元线性回归模型 白话解析与案例实现
在实际生活中,我们要研究的因变量y可以同时受多个自变量的影响,比如一个地区的用电量y,同时与人口数x1,天气文档x2有关;股票价格y,与成交量x1、股东数量x2、市值x3等多个变量有关。我们以方程y=x1+0.5x2+0.5为依据,加入噪声,生成了100个随机样本,经过估计得到多元线性回归模型参数如下。回归分析是研究自变量x与因变量y的关系的方法。
2022-09-06 22:14:31
2233
原创 【机器学习课程】第三章特征工程 1.特征构造1.2 多变量特征构造(特征衍生)
下列例子,使用诊断时病人的状态特征为例,每个特征的取值内容仅有两个,三个特征,两两成组生成3个新特征。*interaction_only:默认为False ,仅考虑两项交叉的到的新特征。1.在业务场景中,有关联的数据列通过简单的运算,将计算结果存储为新的特征列。*includeb_bias: 默认为True,考率计算特征的0次方。这里需要注意如果某特征的取值内容过多,会导致生成的特征过于稀疏。2.发现有用的、高贡献的特征,对核心特征重点进行衍生尝试。*degree: 阶数(幂次)
2022-09-06 22:12:04
638
原创 回归分析:一元线性回归模型 白话解析与案例实现
回归分析是研究自变量x与因变量y的关系的方法。生活中经常会有类似的关系,例如工龄与工资的关系、房屋面积与价格的关系等等。
2022-09-06 22:09:27
5631
原创 【机器学习课程】第三章特征工程 2.特征选择
收集的到的数据中包含丰富的信息,接着又使用特征构造方法增加了许多新特征,部分特征可能对目标的预测贡献度不高、关联度不高,或是噪声过大。特征选择就是特征工程的筛选环节。
2022-09-01 23:32:05
356
原创 【机器学习课程】第三章特征工程 1.特征构造1.1 单变量特征构造(数据重编码)
0.特征工程介绍1.特征构造1.1 单变量特征构造(数据重编码)1.连续变量 等宽离散化(等宽重编码)2.连续变量 等频离散化(等频重编码)3.连续变量 利用聚类进行离散化4.连续变量 标准化(规范化)5.离散变量 自然数编码/字典编码6.离散变量 独热编码/哑变量变换...
2022-08-30 17:22:20
620
原创 【机器学习课程】第二章数据准备 2.数据质量分析
第二章 数据准备 2.数据质量分析 2.1为什么要进行数据质量分析 2.2数据质量分析工具 2.3 重复值检查 2.4缺失值检查 对空值进行操作 2.5异常值检查 2.6一致性检查
2022-08-27 20:15:09
854
原创 【机器学习课程】第二章数据准备 1.数据获取
第二章 数据准备 1.数据获取1.1 非技术手段获取方法。1.2 技术手段获取方法。1.3 数据集下载
2022-08-26 12:31:16
260
原创 【机器学习课程】第一章机器学习概述 3.机器学习相关术语
【机器学习课程】第一章机器学习概述 3.机器学习相关术语数据集划分,泛化能力、拟合、过拟合与欠拟合。
2022-08-25 22:41:27
404
原创 Z-GCNETs:用于时间序列预测的图卷积网络的时间锯齿(之字形)
Z-GCNETs:用于时间序列预测的图卷积网络的时间锯齿(之字形)摘要:最近,人们对开发一类新的深度学习(DL)体系结构产生了浓厚的兴趣,这种体系结构学习和表示机制基本构件之上集成了显式的时间维度。而最近的许多研究结果表明,观测数据的拓扑描述符,编码了不同尺度上拓扑空间中数据形状的信息(即数据的持久同源性),可能包含重要的互补信息,可以提高了DL的性能和鲁棒性。作为这两种新兴思想的融合,我们提出用数据的最显著的时间条件拓扑信息来增强DL架构,并将锯齿状持久性的概念引入到时间感知图卷积网络(G
2022-03-08 21:53:44
484
1
原创 时间序列是一种特殊的顺序排列:利用样本卷积和交互进行预测
摘要:时间序列(Time series)是一种特殊类型的顺序排列(Sequence)数据,一组观测数据在均匀的时间间隔内收集,并按年代顺序排列。现有的深度学习技术使用通用序列(Sequence)模型(如循环神经网络、Transformer模型或时间卷积网络)进行时间序列分析,忽略了其一些独特的特性。例如,时间序列数据的下采样往往保留了数据中的大部分信息,而对于一般的顺序排列数据,如文本序列和DNA序列,则不是这样。【即时间序列(Time series)不完全等同于顺序排列的序列(Sequence...
2022-03-06 22:28:07
3784
原创 基于LSTM与GNN融合的COVID-19预测模型
整合lstm和GNN进行COVID-19预测摘要:COVID-19的传播与图神经网络(gnn)的兴起同时发生,有几项研究建议将两者结合,能更好地预测大流行的演变。类似应用的模型还包括长期短期记忆(LSTM)网络,这是时间序列预测的常用工具。在本工作中,我们通过在LSTM的控制门结构中实现GNN网络,利用空间信息来进一步研究这两种方法的集成。此外,我们引入了一种跳跃连接(skip connection),它被证明是联合捕获数据中的空间和时间模式的关键。我们根据37个欧洲国家过去472天的数据验证了
2022-03-03 23:33:35
2009
原创 具有光谱注意力机制的深度自回归模型
具有光谱注意力机制的深度自回归模型关注人工智能学术前沿 回复 :ts345秒免费获取论文pdf文档,及项目源码摘要时间序列预测是一个跨领域的重要问题,在现实世界的多种应用中发挥着至关重要的作用。在本文中,我们提出了一种将深度自回归模型与光谱注意(SA)模块相结合的预测体系结构,该模块在模型的嵌入空间中合并了全局和局部频域信息。通过在谱域将嵌入的时间序列描述为随机过程的发生,我们的方法可以识别全球趋势和季节性模式。两个光谱注意模型,对时间序列的全局和局部,将这些信息整合到预测中
2021-10-31 15:51:44
888
原创 Transformers预测未来:关注下一帧和时间序列预测
Transformers预测未来:关注下一帧和时间序列预测关注人工智能学术前沿 回复 :ts355秒免费获取论文pdf文档,及项目源码摘要直到最近,递归神经网络还是捕获时序相关性的最佳方法之一。然而,随着Transformer的引入,已经证明了只有注意机制而没有任何RNN的体系结构可以改进各种序列处理任务(例如NLP)的结果。此后的多项研究表明,类似的方法可以应用于图像、点云、视频、音频或时间序列预测。此外,诸如Perceiver或 Informer等解决方案已经被引入,以扩
2021-10-29 17:03:01
5132
2
原创 基于多时空尺度的LSTM模型
基于多时空尺度的LSTM模型关注人工智能学术前沿 回复 :ts335秒免费获取论文pdf文档,及项目源码摘要本文提出了一种新的用于环境数据时间序列预测的时空LSTM (SPATIAL)结构。该框架通过多个传感器和三个不同的海洋变量进行了评估:当前速度、温度和溶解氧。网络的实施在两个方向进行,名义上是分离的,但作为自然环境系统的一部分,跨越空间(在单个传感器之间)和传感器数据的时间组件。来自4个采样电流速度的传感器和8个同时测量温度和溶解氧的传感器的数据评估了框架。我们的模型与
2021-10-22 21:49:43
2877
5
原创 TCCT:紧耦合卷积Transformer时间序列预测
TCCT:紧耦合卷积Transformer时间序列预测关注人工智能学术前沿 回复 :ts325秒免费获取论文pdf文档,及项目源码摘要时间序列预测在现实世界中有着广泛的应用。最近的研究表明,Transformer在处理这类问题,特别是长序列时间序列输入(LSTI)和长序列时间序列预测(LSTF)问题方面具有优越性。为了提高效率,改善Transformer的局部性,这些研究都不同程度地将Transformer与CNN相结合。但是它们的组合是松耦合的,并没有充分利用CNN。为了解
2021-10-14 19:50:54
1936
1
原创 用于动态时空预测的Long-Range Transformers
用于动态时空预测的Long-Range Transformers关注人工智能学术前沿 回复 :ts315秒免费获取论文pdf文档,及项目源码摘要多变量时间序列预测(TSF)侧重于基于历史背景对未来价值的预测。在这些问题中,因变量提供了额外的信息或未来行为变化的早期预警信号。最先进的预测模型依赖于时间步之间的神经注意力。这允许时间学习,但没有考虑变量之间不同的空间关系。本文通过将多元TSF转换为一个新的时空序列公式来解决这个问题,其中每个输入标记代表给定时间步长的单个变量的值。然后
2021-10-12 22:23:07
1007
1
原创 Part 2.4 pandas的Apply 函数和 Map函数
Applications of Deep Neural Networks with Keras基于Keras的深度神经网络应用著:Jeff Heaton 译:人工智能学术前沿目录1.Python基础2.机器学习Python3.TensorFlow简介4.表格类数据的训练5.正则化和Dropout6.用于计算机视觉的卷积神经网络7.生成对抗网络8.Kaggle数据集9.迁移学习10.Keras的时间序列11.自然语言处理与语音识别12.强化学习1
2021-10-11 22:31:54
370
原创 Part 2.3 pandas分组、排序和变换
Applications of Deep Neural Networks with Keras基于Keras的深度神经网络应用著:Jeff Heaton 译:人工智能学术前沿目录1.Python基础2.机器学习Python3.TensorFlow简介4.表格类数据的训练5.正则化和Dropout6.用于计算机视觉的卷积神经网络7.生成对抗网络8.Kaggle数据集9.迁移学习10.Keras的时间序列11.自然语言处理与语音识别12.强化学习1
2021-10-11 22:27:57
233
原创 Part 2.2 离散类别值与连续值
Applications of Deep Neural Networks with Keras基于Keras的深度神经网络应用著:Jeff Heaton 译:人工智能学术前沿目录1.Python基础2.机器学习Python3.TensorFlow简介4.表格类数据的训练5.正则化和Dropout6.用于计算机视觉的卷积神经网络7.生成对抗网络8.Kaggle数据集9.迁移学习10.Keras的时间序列11.自然语言处理与语音识别12.强化学习1
2021-10-10 21:38:42
816
原创 Part 2.1 pandas介绍
Applications of Deep Neural Networks with Keras基于Keras的深度神经网络应用著:Jeff Heaton 译:人工智能学术前沿目录1.Python基础2.机器学习Python3.TensorFlow简介4.表格类数据的训练5.正则化和Dropout6.用于计算机视觉的卷积神经网络7.生成对抗网络8.Kaggle数据集9.迁移学习10.Keras的时间序列11.自然语言处理与语音识别12.强化学习1
2021-10-10 21:36:08
161
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人