pingu的生信备忘录-优快云博客

原创 sklearn｜机器学习：决策树（一）

决策树（Decision Tree）是一种非参数的有监督学习方法，非参数指不限制数据的结构和类型，有监督学习则指必须具有标签。决策树能够从一系列有特征和标签的数据中总结出决策规则，并用树状图的结构来呈现，可用于解决分类和回归问题，其算法本质是一种图结构。其他以树模型为核心的集成算法还有随机森林、AdaBoost。以上为基于西瓜好坏问题构建的决策树，其中最初问题所在地方为根结点（没有进边，有出边，包含最初针对特征的提问），得到结论前的每一个问题为中间节点。

2024-10-31 20:06:39 2390 3

原创可变剪切因子 motif 分析

数据库（http://cisbp-rna.ccbr.utoronto.ca/）信息，并从中提取对应剪切因子的 motif，其中 MEME 中提供了。MEME 工具含有多个 motif 数据库，具体可用数据库可参看：https://meme-suite.org/meme/db/motifs。界面（https://meme-suite.org/meme/tools/fimo）上传对应文件即可完成对应靶序列上的 motif 扫描。ASF 的 motif 主要结合在 gene 的 intro 区域，负责可变剪切。

2024-10-23 17:12:36 2206

原创 Pytorch｜李沐动手学深度学习：数学基础（一）

尽管单个向量的默认方向是列向量，但在表示表格数据集的矩阵中，将每个数据样本作为矩阵中的行向量更为常见，这种约定将支持常见的深度学习实践，如沿着张量的最外轴，我们可以访问或遍历小批量的数据样本。向量的范数表示一个向量有多大，此处的大小（size）不涉及维度，而是分量的大小；然而，张量的维度用来表示张量具有的轴数，张量的某个轴的维数就是这个轴的长度，如果直接使用。分母转置了，就是分子布局。一般的标量导数是切线的斜率，亚导数可以将导数扩展到不可微的函数，即在函数的不可导点将导数取为一个范围内的任意值。

2024-10-15 16:29:29 1554

原创 Pytorch｜李沐动手学深度学习：基础

N维数组（张量，tensor）是机器学习和神经网络的主要数据结构创建数组形状（3✕4矩阵）每个元素的数据类型（32位浮点数）每个元素的值（全是0或随机数）访问元素。

2024-10-05 11:02:50 2255

原创 IGV——基因组可视化：高阶教程

由于网络或其他原因，载入内置参考基因组时可能会失败，此时可以在本地构建参考基因组，使用时从本地导入即可，该方法即使在没有网络的情况下也可以使用。：参考基因组的fasta文件，可以是一个文件包含了所有的染色体，也可以是一个目录，目录下每条染色体是一个单独的文件**（必须）**：染色体条带文件（可选）：基因结构注释文件，支持bed、gtf、genePred 3种格式（可选）alias file：别名，当fasta文件和基因结构中的染色体名称不同时，可以通过这个文件来进行映射（可选）通常情况下，只需要。

2024-10-04 21:24:39 21853 1

原创下载百度网盘数据至服务器（bypy + aria2）

bypy 默认配置的 aria2 使用 4 个连接数下载，可以修改成最大的 16。生物信息学研究通常需要处理大量的数据集，如基因组序列、RNA-Seq 数据、蛋白质结构等，而这些数据往往被测序公司放置在百度网盘中。作为一个高效的下载工具，支持多线程下载，可以显著提高大文件的下载速度，同时如果网络中断或出现其他问题，可以方便地从百度网盘获取这些数据，并将其下载到服务器进行进一步分析，确保数据管理的高效性和组织性。支持断点续传，确保了下载的完整性和可靠性，对于长时间的下载任务可以避免重复下载已完成的部分。

2024-09-26 11:16:43 3388 3

原创 Mac 挂载远程服务器

本教程提供了一种将 MacFUSE 与 sshfs 结合使用的方法，可以实现远程服务器上的文件系统挂载到本地，使得用户能够像操作本地文件一样访问远程文件，通常应用于数据访问、远程文件管理和开发工作，特别是在需要频繁读取或修改远程数据时。只有在 Apple SiliconMac 上首次使用 macFUSE 时，才需要启用对第三方内核扩展的支持，以下教程主要针对 macOS 13 和更新的版本，macOS 12 及更早版本可参考官方教程。macFUSE 的安装需要启用对第三方内核扩展的支持，可能会弹出。

2024-09-25 19:30:53 3998 1

原创 R语言｜临床预测模型（二）：简单/多重线性回归

相关 ≠ 线性回归相关：不确定性的相关关系，指两个变量在宏观上存在关系，但未精确到数学函数关系，当变量X增加时，变量Y随着增加或者减少，但变量Y的具体取值不能由变量X确定，可分为正相关、负相关和零相关。线性回归：确定性的数学函数关系。根据变量数值分布类型不同，相关可分为直线相关、秩相关、列联相关等。秩相关：当变量的数值不符合正态性或为等级资料时，宜采用秩相关，主要利用变量数值的秩次替代原始数据进行相关分析。列联相关：针对于分类变量。直线相关：可计算皮尔森（Pearson）相关系数 r。

2024-09-25 13:04:26 2327

原创 IGV——基因组可视化

例如，查看转录组数据不同区域的Reads丰度，不同样本的基因表达差异，查找SNP位点，查看甲基化，查看基因结构信息。（3）如果在本地可视化，需要将 bam 和 bai 或 bigwig 文件从 linux 系统上传到本地，且放置在同一个文件夹下，如果服务器搭建有 ftp 站点则可以直接使用 url 载入，也可以将数据上传至可以接受外部访问的服务器（如 https://de.cyverse.org/dashboard ）上再使用 url 载入，具体可参考教程《通过 url 访问服务器文件》。

2024-09-09 21:05:24 5712

原创通过 url 访问服务器数据

在使用 IGV 或者 UCSC track hub 可视化时，往往需要将数据放置在本地，但考虑到生信数据往往直接放置在服务器上，且文件大小可能高达几GB，此时可以将数据存放到可以接受外部访问的服务器上，然后通过 url 上传数据完成可视化，此处推荐的工具为 CyVerse（https://de.cyverse.org/dashboard）。CyVerse 网站注册登录后可直接通过如下网页操作完成本地文件的上传，如果文件上传失败可能需要重新上传。对于较长的文件/文件夹名称，建议使用下划线而不是空格。

2024-09-06 13:41:15 1277

原创 ClusterGVis——时间序列聚类可视化

文章目录ClusterGVis——时间序列聚类可视化安装使用1. 输入2. 确定最佳聚类数目3. 聚类4. 输出5. 可视化（1）折线图（2）热图（3）热图 + 折线图/箱形图/GO富集补充报错参考ClusterGVis——时间序列聚类可视化ClusterGVis 提供了时间序列的 RNA-seq 数据的模糊 c-means 算法和 kmeans 算法聚类的可视化，还可以实现对 WGCNA 输出的可视化，同时可以使用 clusterProfiler 的 enrichCluster 完成每个 cluste

2024-09-05 09:54:17 2623 3

原创 R语言｜临床预测模型（一）

参数化方法：线性模型、广义线性模型、logistic 回归半参数化方法：竞争风险模型、cox 回归非参数化方法（没有回归系统，没有参数但可预测）：机器学习（神经网络、随机森林、决策树…）

2024-09-04 09:34:08 2415 1

原创 CPAT——lncRNA编码能力预测（一）

对于转录组测序的数据而言，组装得到转录本之后，首先要做的就是区分蛋白编码和非蛋白编码的RNA。第一种算法基于序列比对，可以较好的识别保守性较好的蛋白编码基因，包括CPCPhyloCSF等软件；第二种算法不需要比对，而是通过 coding 和 non-coding 转录本的序列特征来进行区分，包括CNCICPATPLEK等。

2024-08-28 18:41:44 2956 1

原创 clust——共表达聚类

clust 是一种用于识别在一个或多个物种的异构数据集中持续共表达（相关性良好）的基因簇（组）的全自动方法。

2024-08-11 16:15:54 1497

原创 Mfuzz——时间序列聚类

Mfuzz 工具采用算法，根据具有时间序列特征的转录组、蛋白质组数据中基因或蛋白表达的时间趋势，对具有相同表达模式的基因或蛋白划分 cluster。相较于传统的统计学显著的上下调基因分组，Mfuzz 可以实现更为多元的生物学实验设计的基因聚类，如的实验。迄今为止的聚类大多为硬聚类（K-means 等算法），即将每个基因或蛋白质都完全分配给一个聚类，但在实际情况中，基因/蛋白质簇经常会出现重叠，且硬聚类算法通常对噪声十分敏感。为了克服硬聚类的局限性，Mfuzz 采用了。

2024-08-09 19:55:06 2072

原创 Java多线程

1.进程：是正在运行的程序系统进行资源分配和调用的独立单位每一个进程都有它自己的内存空间和系统资源2.线程：进程中的单个顺序控制流，是一条执行路径单线程：一个进程如果只有一条执行路径，则称为单线程程序，例：记事本程序多线程：一个进程如果有多条执行路径，则称为多线程程序，例：扫雷程序多线程的实现方式①继承Thread类定义一个类MyThread继承Thread类在MyThread类中重写run()方法创建MyThread类的对象启动线程为什么要重写run()方法？.

2021-03-13 11:24:31 157

原创 Java类和对象

类和对象1.什么是对象：万物皆对象，客观存在的事物皆为对象，是能够看得到摸得着的真实存在的实体2.类是对现实生活中一类具有共同属性和行为的事物的抽象，是Java程序的基本组成单位类的特点：类是对象的数据类型类是具有相同属性和行为的一组对象的集合3.对象的属性属性：对象具有的各种特征，每个对象的每个属性都拥有特定的值行为：对象能够执行的操作4.类和对象的关系类是对象的抽象对象是类的实体5.类的定义类的组成：属性：在类中通过成员变量来体现（类中方法外的变量）

2021-03-12 17:02:27 132

原创 Java基础知识补充

计算机基础知识1.计算机采用二进制表示，只包含0、1两个数，逢二进一，每一个0或1，叫做一个bit（比特，位）2.字节——计算机中最小的存储字节位（bit）：一个数字0或者一个数字1，代表一位。字节（Byte）：每逢8位是一个字节，数据存储的最小单位。1Byte=8 bit 1 KB=1024 Byte1 MB=1024 KB1 GB=1024 MB1 TB=1024 PB3.命令提示符——cmd启动： win+R切换盘符： ...

2021-03-09 19:48:06 155

原创 Java——对象的行为

方法会运用形参，调用的一方会传入实参①实参是传给方法的值。当它传入方法后就成了形参。参数跟局部变量是一样的。它有类型与名称，可以在方法内运用。②方法无法改变调用方所传入的参数。从方法中取返回值①方法可以有返回值，但一般会把方法设成返回void类型。②如果将一个方法声明有返回值，就必须返回所声明类型的值。（说好了要返回，最好就得返回）1.方法如何声明多个返回值数组。2.传入与传出方法的值类型可以隐含地放大或是明确地缩小。2.封装的基本原则将实例变量标为私用，并提供共有的方法来控制存取动作

2020-11-15 17:02:05 355

原创 Java——认识变量

变量类型primitive主数据类型和引用①primitive主数据类型用来保存基本类型的值，包括整数、布尔和浮点数等②对象引用保存的是对象的引用一、primitive主数据类型给变量赋值①在等号后面直接打出（x=12）②指派其他变量的值（x=y）③上述两种方式的结合（x=y+43)二、命名方法1.名称必须以字母、下划线或$符号开头，不能以数字开头。2.除了第一个字符外，后面的可以用数字。反正不要用在第一个字符就行。3.避开Java的保留字对于primitive主数据类型的变量来说

2020-11-14 18:30:41 151

原创 Java——类和对象

一、对象1.对象本身已知的事物：实例变量2.对象可执行的动作称为：方法对象是类设计的一部分二、创建对象1.需要两个类①要被操作与对象的类②用来测试该类的类圆点运算符——存取对对象的状态与行为//编写类class Dog { int size; String breed; String name;void bark() { System.out.println("Ruff!Ruff!");//编写测试用的类class DogTestDri

2020-11-14 17:48:07 153

原创 Java——基本概念

Java——基本概念一、Java的工作方式源代码(.java)→编译器(.class)→输出→Java虚拟机（JVM）二、Java的程序结构1.类存于源文件里，方法存于类中，语句存于方法中2.类每个Java程序最少都会有一个类以及一个main()。每个应用程序只有一个main()函数。public static void main (string[] args) { //程序代码写这里 }注意：※语句时以分号结束的※以两条斜线开始的行是注释※空格符无关紧要※用名称与类型（t

2020-11-14 16:45:14 149

import__的博客