- 博客(22)
- 收藏
- 关注
原创 sklearn|机器学习:决策树(一)
决策树(Decision Tree)是一种非参数的有监督学习方法,非参数指不限制数据的结构和类型,有监督学习则指必须具有标签。决策树能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现,可用于解决分类和回归问题,其算法本质是一种图结构。其他以树模型为核心的集成算法还有随机森林、AdaBoost。以上为基于西瓜好坏问题构建的决策树,其中最初问题所在地方为根结点(没有进边,有出边,包含最初针对特征的提问),得到结论前的每一个问题为中间节点。
2024-10-31 20:06:39
1895
3
原创 可变剪切因子 motif 分析
数据库(http://cisbp-rna.ccbr.utoronto.ca/)信息,并从中提取对应剪切因子的 motif,其中 MEME 中提供了。MEME 工具含有多个 motif 数据库,具体可用数据库可参看:https://meme-suite.org/meme/db/motifs。界面(https://meme-suite.org/meme/tools/fimo)上传对应文件即可完成对应靶序列上的 motif 扫描。ASF 的 motif 主要结合在 gene 的 intro 区域,负责可变剪切。
2024-10-23 17:12:36
1399
原创 Pytorch|李沐动手学深度学习:数学基础(一)
尽管单个向量的默认方向是列向量,但在表示表格数据集的矩阵中, 将每个数据样本作为矩阵中的行向量更为常见,这种约定将支持常见的深度学习实践,如沿着张量的最外轴,我们可以访问或遍历小批量的数据样本。向量的范数表示一个向量有多大,此处的大小(size)不涉及维度,而是分量的大小;然而,张量的维度用来表示张量具有的轴数,张量的某个轴的维数就是这个轴的长度,如果直接使用。分母转置了,就是分子布局。一般的标量导数是切线的斜率,亚导数可以将导数扩展到不可微的函数,即在函数的不可导点将导数取为一个范围内的任意值。
2024-10-15 16:29:29
1285
原创 Pytorch|李沐动手学深度学习:基础
N维数组(张量,tensor)是机器学习和神经网络的主要数据结构创建数组形状(3✕4矩阵)每个元素的数据类型(32位浮点数)每个元素的值(全是0或随机数)访问元素。
2024-10-05 11:02:50
1619
原创 IGV——基因组可视化:高阶教程
由于网络或其他原因,载入内置参考基因组时可能会失败,此时可以在本地构建参考基因组,使用时从本地导入即可,该方法即使在没有网络的情况下也可以使用。:参考基因组的fasta文件,可以是一个文件包含了所有的染色体,也可以是一个目录,目录下每条染色体是一个单独的文件**(必须)**:染色体条带文件(可选):基因结构注释文件,支持bed、gtf、genePred 3种格式(可选)alias file:别名,当fasta文件和基因结构中的染色体名称不同时,可以通过这个文件来进行映射(可选)通常情况下,只需要。
2024-10-04 21:24:39
10599
原创 下载百度网盘数据至服务器(bypy + aria2)
bypy 默认配置的 aria2 使用 4 个连接数下载,可以修改成最大的 16。生物信息学研究通常需要处理大量的数据集,如基因组序列、RNA-Seq 数据、蛋白质结构等,而这些数据往往被测序公司放置在百度网盘中。作为一个高效的下载工具,支持多线程下载,可以显著提高大文件的下载速度,同时如果网络中断或出现其他问题,可以方便地从百度网盘获取这些数据,并将其下载到服务器进行进一步分析,确保数据管理的高效性和组织性。支持断点续传,确保了下载的完整性和可靠性,对于长时间的下载任务可以避免重复下载已完成的部分。
2024-09-26 11:16:43
1977
2
原创 Mac 挂载远程服务器
本教程提供了一种将 MacFUSE 与 sshfs 结合使用的方法,可以实现远程服务器上的文件系统挂载到本地,使得用户能够像操作本地文件一样访问远程文件,通常应用于数据访问、远程文件管理和开发工作,特别是在需要频繁读取或修改远程数据时。只有在 Apple SiliconMac 上首次使用 macFUSE 时,才需要启用对第三方内核扩展的支持,以下教程主要针对 macOS 13 和更新的版本,macOS 12 及更早版本可参考官方教程。macFUSE 的安装需要启用对第三方内核扩展的支持,可能会弹出。
2024-09-25 19:30:53
2772
1
原创 R语言|临床预测模型(二):简单/多重线性回归
相关 ≠ 线性回归相关:不确定性的相关关系,指两个变量在宏观上存在关系,但未精确到数学函数关系,当变量X增加时,变量Y随着增加或者减少,但变量Y的具体取值不能由变量X确定,可分为正相关、负相关和零相关。线性回归:确定性的数学函数关系。根据变量数值分布类型不同,相关可分为直线相关、秩相关、列联相关等。秩相关:当变量的数值不符合正态性或为等级资料时,宜采用秩相关,主要利用变量数值的秩次替代原始数据进行相关分析。列联相关:针对于分类变量。直线相关:可计算皮尔森(Pearson)相关系数 r。
2024-09-25 13:04:26
1821
原创 IGV——基因组可视化
例如,查看转录组数据不同区域的Reads丰度,不同样本的基因表达差异,查找SNP位点,查看甲基化,查看基因结构信息。(3)如果在本地可视化,需要将 bam 和 bai 或 bigwig 文件从 linux 系统上传到本地,且放置在同一个文件夹下,如果服务器搭建有 ftp 站点则可以直接使用 url 载入,也可以将数据上传至可以接受外部访问的服务器(如 https://de.cyverse.org/dashboard )上再使用 url 载入,具体可参考教程《通过 url 访问服务器文件》。
2024-09-09 21:05:24
3581
原创 通过 url 访问服务器数据
在使用 IGV 或者 UCSC track hub 可视化时,往往需要将数据放置在本地,但考虑到生信数据往往直接放置在服务器上,且文件大小可能高达几GB,此时可以将数据存放到可以接受外部访问的服务器上,然后通过 url 上传数据完成可视化,此处推荐的工具为 CyVerse(https://de.cyverse.org/dashboard)。CyVerse 网站注册登录后可直接通过如下网页操作完成本地文件的上传,如果文件上传失败可能需要重新上传。对于较长的文件/文件夹名称,建议使用下划线而不是空格。
2024-09-06 13:41:15
1080
原创 ClusterGVis——时间序列聚类可视化
文章目录ClusterGVis——时间序列聚类可视化安装使用1. 输入2. 确定最佳聚类数目3. 聚类4. 输出5. 可视化(1)折线图(2)热图(3)热图 + 折线图/箱形图/GO富集补充报错参考ClusterGVis——时间序列聚类可视化ClusterGVis 提供了时间序列的 RNA-seq 数据的模糊 c-means 算法和 kmeans 算法聚类的可视化,还可以实现对 WGCNA 输出的可视化,同时可以使用 clusterProfiler 的 enrichCluster 完成每个 cluste
2024-09-05 09:54:17
1585
2
原创 R语言|临床预测模型(一)
参数化方法:线性模型、广义线性模型、logistic 回归半参数化方法:竞争风险模型、cox 回归非参数化方法(没有回归系统,没有参数但可预测):机器学习(神经网络、随机森林、决策树…)
2024-09-04 09:34:08
1893
1
原创 CPAT——lncRNA编码能力预测(一)
对于转录组测序的数据而言,组装得到转录本之后,首先要做的就是区分蛋白编码和非蛋白编码的RNA。第一种算法基于序列比对,可以较好的识别保守性较好的蛋白编码基因,包括CPCPhyloCSF等软件;第二种算法不需要比对,而是通过 coding 和 non-coding 转录本的序列特征来进行区分,包括CNCICPATPLEK等。
2024-08-28 18:41:44
2076
原创 Mfuzz——时间序列聚类
Mfuzz 工具采用算法,根据具有时间序列特征的转录组、蛋白质组数据中基因或蛋白表达的时间趋势,对具有相同表达模式的基因或蛋白划分 cluster。相较于传统的统计学显著的上下调基因分组,Mfuzz 可以实现更为多元的生物学实验设计的基因聚类,如的实验。迄今为止的聚类大多为硬聚类(K-means 等算法),即将每个基因或蛋白质都完全分配给一个聚类,但在实际情况中,基因/蛋白质簇经常会出现重叠,且硬聚类算法通常对噪声十分敏感。为了克服硬聚类的局限性,Mfuzz 采用了。
2024-08-09 19:55:06
1563
原创 Java多线程
1.进程:是正在运行的程序系统进行资源分配和调用的独立单位 每一个进程都有它自己的内存空间和系统资源2.线程:进程中的单个顺序控制流,是一条执行路径单线程:一个进程如果只有一条执行路径,则称为单线程程序,例:记事本程序 多线程:一个进程如果有多条执行路径,则称为多线程程序,例:扫雷程序多线程的实现方式①继承Thread类定义一个类MyThread继承Thread类 在MyThread类中重写run()方法 创建MyThread类的对象 启动线程为什么要重写run()方法?.
2021-03-13 11:24:31
131
原创 Java类和对象
类和对象1.什么是对象:万物皆对象,客观存在的事物皆为对象,是能够看得到摸得着的真实存在的实体2.类是对现实生活中一类具有共同属性和行为的事物的抽象,是Java程序的基本组成单位类的特点:类是对象的数据类型 类是具有相同属性和行为的一组对象的集合3.对象的属性属性:对象具有的各种特征,每个对象的每个属性都拥有特定的值行为:对象能够执行的操作4.类和对象的关系类是对象的抽象 对象是类的实体5.类的定义类的组成:属性:在类中通过成员变量来体现(类中方法外的变量)
2021-03-12 17:02:27
96
原创 Java基础知识补充
计算机基础知识1.计算机采用二进制表示,只包含0、1两个数,逢二进一,每一个0或1,叫做一个bit(比特,位)2.字节——计算机中最小的存储字节位(bit):一个数字0或者一个数字1,代表一位。字节(Byte):每逢8位是一个字节,数据存储的最小单位。1Byte=8 bit 1 KB=1024 Byte1 MB=1024 KB1 GB=1024 MB1 TB=1024 PB3.命令提示符——cmd启动: win+R切换盘符: ...
2021-03-09 19:48:06
121
原创 Java——对象的行为
方法会运用形参,调用的一方会传入实参①实参是传给方法的值。当它传入方法后就成了形参。参数跟局部变量是一样的。它有类型与名称,可以在方法内运用。②方法无法改变调用方所传入的参数。从方法中取返回值①方法可以有返回值,但一般会把方法设成返回void类型。②如果将一个方法声明有返回值,就必须返回所声明类型的值。(说好了要返回,最好就得返回)1.方法如何声明多个返回值数组。2.传入与传出方法的值类型可以隐含地放大或是明确地缩小。2.封装的基本原则将实例变量标为私用,并提供共有的方法来控制存取动作
2020-11-15 17:02:05
325
原创 Java——认识变量
变量类型primitive主数据类型和引用①primitive主数据类型用来保存基本类型的值,包括整数、布尔和浮点数等②对象引用保存的是对象的引用一、primitive主数据类型给变量赋值①在等号后面直接打出(x=12)②指派其他变量的值(x=y)③上述两种方式的结合(x=y+43)二、命名方法1.名称必须以字母、下划线或$符号开头,不能以数字开头。2.除了第一个字符外,后面的可以用数字。反正不要用在第一个字符就行。3.避开Java的保留字对于primitive主数据类型的变量来说
2020-11-14 18:30:41
117
原创 Java——类和对象
一、对象1.对象本身已知的事物:实例变量2.对象可执行的动作称为:方法对象是类设计的一部分二、创建对象1.需要两个类①要被操作与对象的类②用来测试该类的类圆点运算符——存取对对象的状态与行为//编写类class Dog { int size; String breed; String name;void bark() { System.out.println("Ruff!Ruff!");//编写测试用的类class DogTestDri
2020-11-14 17:48:07
137
原创 Java——基本概念
Java——基本概念一、Java的工作方式源代码(.java)→编译器(.class)→输出→Java虚拟机(JVM)二、Java的程序结构1.类存于源文件里,方法存于类中,语句存于方法中2.类每个Java程序最少都会有一个类以及一个main()。每个应用程序只有一个main()函数。public static void main (string[] args) { //程序代码写这里 }注意:※语句时以分号结束的※以两条斜线开始的行是注释※空格符无关紧要※用名称与类型(t
2020-11-14 16:45:14
126
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人