- 博客(117)
- 资源 (6)
- 收藏
- 关注

原创 Transformer1( 了解整体知识架构)
在人工智能和机器学习领域,Transformer模型的出现无疑是一场革命。自从2017年Google的研究团队首次提出以来,Transformer迅速成为了处理序列数据(如文本、语音等)的首选架构,彻底改变了自然语言处理(NLP)的面貌。基于 Transformer 架构的 LLM 在复杂对话、代码编写、艺术创作等领域取得了卓越的表现,比如:OpenAI 的 GPT、谷歌的 BERT、 Athropic 的 Claude 、 Meta 的 Llama、阿里的通义千问、腾讯的混元等。
2024-09-18 15:45:19
1173
1

原创 随机森林 2(决策树)
通过的介绍,相信大家对随进森林都有了一个初步的认知,知道了随机和森林分别指的是什么,以及决策树根据什么选择内部节点。本文将会从森林深入到树,去看一下决策树是如何构建的。网上很多文章都讲了决策树如何构建,但在我看来不够生动形象,不够深入,希望此文能够让你彻彻底底了解决策树以及公式的含义。
2023-12-20 11:30:28
1311

原创 Softmax从小白到深度理解
大家在学习深度学习时,肯定会遇到softmax这个知识点,初学者大都一知半解,没有理解透彻,很多文章直接讲述softmax公式及求导,忽略了其中的原因。初学者通过此文可以梳理知识结构,高手可直接查看公式推导来巩固知识用来面试手推。 softmax公式及理解 在深度学习反向传播算法中,为什么softmax求导如此重要 softmax求导公式推导 ...
2021-03-21 22:59:59
1797

转载 最大似然估计(Maximum likelihood estimation)(通过例子理解)
之前看书上的一直不理解到底什么是似然,最后还是查了好几篇文章后才明白,现在我来总结一下吧,要想看懂最大似然估计,首先我们要理解什么是似然,不然对我来说不理解似然,我就一直在困惑最大似然估计到底要求的是个什么东西,而那个未知数θ到底是个什么东西TT原博主写的太好了,这里 我就全盘奉上~似然与概率在统计学中,似然函数(likelihood function,通常简写为likelihood,...
2018-08-31 10:29:51
168659
22

原创 主成分分析(Principal Component Analysis,PCA)详解
PCA是非常重要的统计方法,其实际应用非常广泛,但是很多讲解太过于公式化,很难让初学者消化,本文将从一个实际例子出发,并对数学公式原理及推导过程作出详细解释,即使你的数学基础比较差,在看完这篇博客之后,相信你会对PCA会有一个透彻的认知。
2017-11-29 11:35:28
36430
3
原创 centos7.9 安装singularity
容器化技术有很多,最常用的就是 docker 和 singularity。虽然 docker 使用最广,但docker 必须使用 root 权限才能运行。在 HPC 中,普通用户没有 root 权限,也就无法使用 docker。而singularity 是专为 HPC 设计的,支持无 root 权限运行,避免权限冲突,非常适合生物信息学、科学计算等需要处理敏感数据的 HPC 场景。官方文档是以 Ubuntu 为例介绍的,我这里以 centos7.9 root 用户为例介绍安装命令。
2025-04-03 10:37:22
223
原创 NCBI 数据下载
网上介绍的那几种直接下载NCBI数据的方法大都下载速度很慢,但是EBI (European Bioinformatics Institute) 下载很快,而且它的数据库和NCBI是共享的,所以我们可以直接从 EBI 下载。1 、 确定要下载的 SRA 编号;
2024-04-12 14:39:43
1433
原创 ssh 免密登录
2. root @用户名: ~$ cat id_rsa.pub >>/root/.ssh/authorized_keys。若需免密登录到B的root用户,需将公钥追加到/root/.ssh/authorized_keys文件中;普通用户公钥在/home/.ssh下,root用户公钥在/root/.ssh下。
2024-02-18 13:00:37
641
原创 隐马尔科夫模型1(了解整体知识架构)
本篇文章主要有两个目的:1 、让大家了解什么是隐马尔科夫模型。为了让大家深入理解,会先介绍什么是马尔科夫模型,然后介绍什么是隐马尔可夫模型,然后总结两者的联系和区别。2 、带大家认识马尔可夫模型的三种应用场景。大家可以理解为能解决哪三种问题,以及三种场景下使用的什么算法,以及不涉及公式推导的情况下每种算法的简单讲解。
2024-01-30 22:11:48
1094
原创 随机森林 3(代码)
第一份代码是比较原始的代码,第二份代码是第一段代码中引用的primitive_plot,第三份代码是使用 sklearn 包实现的代码,第四份代码是 sklearn 使用第一份代码数据集的实现代码。通过随机森林 1 和随机森林 2 的介绍,相信大家对理论已经了解的很透彻,接下来带大家敲一下代码,不懂得可以加我入群讨论。想加微信算法交流群的朋友可以先扫码加我微信,我拉你进群。
2024-01-05 14:19:06
836
原创 随机森林1(了解整体知识架构)
随机森林,顾名思义,用随机的的方式构建森林,森林是由树组成的,而随机森林的树就是决策树。为什么认为多个决策树结果比一个决策树结果好呢?大家可以理解为三个臭皮匠顶上一个诸葛亮。这里还要说其他只讲公式博客中忽略的地方,有四点增加大家对随机森林的理解:1、从样本中选出一份数据集只能画一棵树;2 、要花多棵树就要选多次数据集,随机森林中的随机指的就是这里;3 、最终结果由所有决策树投票决定,没涉及到权重;4 、建树的数量是由多中因素决定的,比如数据集大小、计算资源等,一般来说在几十到 一千之间;
2023-12-15 18:03:07
802
原创 Centos7定时任务-crontab
其中 f1 是表示分钟,f2 表示小时,f3 表示一个月份中的第几日,f4 表示月份,f5 表示一个星期中的第几天。当 f1 为 a-b 时表示从第 a 分钟到第 b 分钟这段时间内要执行,f2 为 a-b 时表示从第 a 到第 b 小时都要执行,其馀类推。当 f1 为 */n 时表示每 n 分钟个时间间隔执行一次,f2 为 */n 表示每 n 小时个时间间隔执行一次,其馀类推。当 f1 为 * 时表示每分钟都要执行 program,f2 为 * 时表示每小时都要执行程序,其馀类推。
2023-06-15 15:51:51
2751
转载 Idea打maven jar 抛出异常:A JNI error has occurred
补充信息:当Java -version 和 Javac -version 版本不一致时,执行也可能会抛出异常,此时需要将版本进行统一。依赖jar包中的META-INF中有多余的.SF文件与当前jar包冲突, 需要删除依赖jar包中的.SF文件。当项目依赖其他jar包的时候,打出的jar包执行出错,抛出这个异常。打完的jar包执行如下命令删除多余的.SF文件。
2023-03-31 13:18:39
734
原创 slurm投递任务内存如何根据线程自动变化
使用场景:投递任务时不设置内存,内存根据线程数自动设置,比如线程参数设置为2,内存默认为4G,线程数设置为4,内存默认为8G。
2023-01-07 11:15:41
494
原创 linux修改同时打开文件数量
需要修改/etc/security/limits.conf中的soft和hard limit,系统默认上限为1048576。如果你需要更高的上限怎么办呢?这个上限是在/proc/sys/fs/nr_open中设定的,所以直接修改即可。但直接改会报错Fsync failed,可以使用命令echo 2000000 >/proc/sys/fs/nr_open 修改。
2022-11-24 10:10:41
881
原创 centos系统时间修改
很多朋友在安装完CentOS系统后发现时间与现在时间相差8小时,这是由于CentOS默认bios时间是utc时间,所以时间相差了8小时。
2022-11-21 16:52:58
1509
原创 aws新建机器无法登录(尤其是新建的vpc)
出现这种情况大概率是没有把互联网网关添加到路由表的路由中。互联网网关虽然新建时关联了VPC,但使用的话还是需要关联到路由表中的路由选项。
2022-11-01 09:49:14
250
原创 AWS tInspectContainerError: Could not transition to inspecting; timed out after waiting 30s
AWS nextflow+batch 报错:CannotInspectContainerError: Could not transition to inspecting;原因:计算环境中的子网只能指定一个,如果指定多个就会出现网络互通问题。
2022-09-22 10:13:16
130
原创 AWS batch 状态卡在 RUNABLE 原因总结
AWS batch 状态卡在 RUNABLE 原因总结:1、从s3下载的脚本,但是没有可执行权限;2、任务提交时填写的内存超过计算环境中实例类型(机器)的内存;
2022-09-15 08:59:41
256
原创 docker build : returned a non-zero code: 137
docker build : returned a non-zero code: 137
2022-06-10 16:22:24
976
原创 java程序内存或cpu占用过高解决办法
命令:基于Linux系统的Tomcat内存泄露分析、CPU内存过高排查 - 偷懒的fc - 博客园排查tomcat服务器CPU使用率过高 - 北漂程序员 - 博客园MAT软件排查:Mat使用详解 - 陈咬金 - 博客园Java程序内存分析:使用mat工具分析内存占用_dingxie1963的博客-优快云博客...
2021-12-31 13:26:05
639
转载 linux top命令看到的实存(RES)与虚存(VIRT)分析
近期在公司中解决程序使用的内存高问题,将一部分之前无法回收的内存进行了回收,实现降内存效果(降实存)。在统计效果时, QA问是统计RES(实存)还是VIRT(虚存)。在网上学习看了一些博客,这里自己总结一下RES和VIRT的区别。1. 概念VIRT: 1 2 3 1、进程“需要的”虚拟内存大小,包括进程使用的库、代码、数据,以及malloc、new分配的堆空间和分配的栈空间等; 2、假如进程新申请10MB的内存,但实际只使用了1MB,那
2021-12-08 10:44:19
9275
原创 perl Config::Tiny用法
Config::Tiny是个好东西,功能是这样实现的,从一个规范的配置文件中取出相应的值。文件名config[sention]IPADDRESS=127.0.0.1USER=gamePASS=3451133BACK_DESC=/dev/shm代码如下:#!/usr/bin/perluseConfig::Tiny;useMath::BigInt;my$Config=Config::Tiny->new();$Config=Config::Tiny->re...
2021-10-18 10:35:57
666
转载 samtools flagstat 统计结果的理解
14608455 + 0 in total (QC-passed reads + QC-failed reads) ## reads总数37967 + 0 secondary ##出现比对到参考基因组多个位置的reads数0 + 0 supplementary ##可能存在嵌合的reads0 + 0 duplicates ##重复的reads数14590894.
2021-10-13 09:18:26
3171
转载 二代测序的比对算法
现在主流的比对软件不下十种,但按照核心算法区分,其实可以拆分成为两大阵营:1.基于哈希表(hash-table)数据结构的比对算法2.Burrows Wheeler transform(BWT)索引数据结构的比对算法首先,我们来了解一下第一类比对算法hash-table的核心思想就是采用种子序列定位及延伸算法(seed-and-extend algorithm)根据索引构建对象的不同,可以分为两类,第一种,基于参考基因组(reference genome)索引的的延伸比对通过
2021-10-11 15:15:40
1413
转载 阿里云云监控插件安装
注意事项插件下载是通过http proxy完成的,默认代理节点在杭州,如果下载时网络不通可根据机器所在地域手工调整下载地址。Linux可以调整wget的-e参数,windows可以修改浏览器http proxy的配置。下面是所有可以使用的http proxy,端口是3128或8080,可以使用telnet hzcmsproxy.aliyun.com 3128来测试代理的可用性。 hzcmsproxy.aliyun.com #杭州 bjcmsproxy.aliyun.com #北京
2021-09-29 16:44:24
1075
原创 1分钟解决git clone 速度慢的问题
办法使用国内镜像,目前已知Github国内镜像网站有github.com.cnpmjs.org和git.sdut.me/。速度根据各地情况而定,在clone某个项目的时候将github.com替换为github.com.cnpmjs.org即可。//这是我们要clone的git clone https://github.com/Hackergeek/architecture-samples //使用镜像git clone https://github.com.cnpmjs.org/Hack
2021-09-27 08:48:26
1126
转载 @Scheduled中fixedDelay、fixedRate、initialDelay 和cron表达式的解析及区别
一、 在线Cron表达式生成器http://cron.qqe2.com/二、介绍cronExpression定义时间规则,Cron表达式由6或7个空格分隔的时间字段组成:秒 分钟 小时 日期 月份 星期 年(可选);字段 允许值 允许的特殊字符秒 0-59 , - * /分 0-59 , - * /小时 0-23 , - * /日期 1-31 , - * ? / L W C月份 1-12 , - * /星期 1-7 , -...
2021-08-09 14:59:13
1040
Identifcation of 12 cancer types through genome deep learning.pdf
2019-11-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人