- 博客(16)
- 收藏
- 关注
原创 Transformer复现(模型搭建篇)
具体来说,其实attention函数只针对输入数据的最后两个维度操作,原来分析attention时假设数据是(batch_size,seq_len,d_model),现在是(nbatches,h,seq_len,d_k),最后两个维度都是序列长度和向量特征数,所以形状为(nbatches,h,seq_len,d_k)的query,key,value也可以输入到attention函数里。传入的解码器接受四个参数:经过嵌入后的目标序列,编码器的输出(memory),源序列的掩码,目标序列的掩码。
2025-03-25 18:32:35
802
原创 动态规划之区间DP(核心代码+简要解释,个人笔记,小白不友好)
第三层遍历分割点,即遍历每个小区间[i,j]中的每个点k,不包括端点,最优秀的分割点是让【左右两个区间上的最小代价之和】加上[i,j]一整个区间的sum,有最小值。为了实现环形上的合并问题,把原来长为N的序列搞成了2N,在长为2*N的区间上做动态规划(与第一种情况完全相似),最后取最优情况的时候只需要取f(1,n),f(2,n+1)……f(n,2n-1)中的最大值。第一层遍历表示每次取长为len的区间,一开始取2(一个长为2的滑动窗口),之后取2,最终取n,表示一个囊括整个区间的窗口。
2025-03-13 20:41:15
134
原创 背包问题(0-1背包、完全背包、多重背包标准代码展示)
w[i]表示第i个物品的体积,v[i]表示第i个物品的价值。dp[i][j]表示背包容量为j的情况下,从前0-i个物品中可以选到的最大价值。
2025-03-12 19:21:43
99
原创 贝叶斯回归(极其通俗版,快速把握核心原理+简单示例)
假设房价y服从线性模型+高斯噪声:y=kx+b+ϵ(ϵ∼N(0,σ2))因此,似然函数为:别慌,上面这个式子看似复杂,其实就是100个正态分布公式的乘积,它们之间的区别是yi和xi不同,也就是说,现在我有了一个均值为kx+b,方差为σ²的正态分布,也有了(x1,y1),(x2,y2)……(x100,y100)这100个数据点(100个面积和房价的对应关系),我根据这100个数据点,从正态分布找到它们发生的概率,并全部乘起来。
2025-03-10 18:39:58
843
原创 计算机扫盲极简教程:添加环境变量
1.安装好某个软件的环境后,复制其中可执行文件的存储路径,一般可执行文件位于bin或Scripts中,所以一般存储路径都是以bin或Scripts结尾,具体路径如果找不到可参考具体教程。2.打开“高级系统设置”,找到“高级”,选择“环境变量”。可以看到“用户变量”和“系统变量”两个选项。这两栏里面都有PATH,根据个人情况选择二者中的一个,在PATH中添加之前复制的路径,保存即可。
2025-02-22 22:25:54
411
原创 传染病模型的可视化(基于元胞自动机)
每个细胞代表一个人,可以处于以下状态之一:易感者(S0),感染者(S1),治愈者(S2),或潜伏者(S3)。
2025-02-12 11:09:23
287
原创 从HuggingFace上下载模型报错:HTTPSConnectionPool(host=‘huggingface.co’, port=443),亲测有效版!
如下图,点击使用代理服务器后面的编辑,就可以查到。这个方法自己试过是可以的,希望能提供一点帮助!代理IP地址和端口号可以在电脑中查询。
2025-02-02 18:44:48
285
原创 Transformer详细解读(通俗易懂,比较细节,基于论文《Attention Is All You Need》)
(这里表达起来真的很绕,因为涉及到矩阵运算,但实际。
2025-01-24 13:43:43
1121
原创 哈希表(【通俗易懂】知识点讲解,可速通,小白友好)
哈希表是用在查找问题中的。我们知道,一条数据包含了关键字和其他信息,所以一般查找问题的流程是:根据某条数据的关键字(key),在一个数据结构中(可能是线性表,也可能其他存储数据的结构),查找这条数据全部的内容。哈希表的目的是,只要知道了要查找数据的关键字,那么就可以立刻得到存储这条数据的地址(比如顺序表的索引就可以看做地址),然后根据这个地址去到相应位置上,就得到了一条数据的全部内容。
2024-12-04 20:17:45
1624
原创 最小生成树(Kruskal算法+代码实现)
1.生成树的顶点与图的顶点相同,边数为n-1(n是顶点个数);2.生成树再加一条边必然形成回路(这一点是Kruskal算法的一个重要依据);3.最小生成树是图的所有生成树中各边权值之和最小的那一个;4.对于一张图,最小生成树不一定是唯一的;如果图的各边权重均不同,那么最小生成树是唯一的。
2024-11-21 21:16:02
774
原创 拓扑排序(概念+算法+代码,基于AOV网络)
先明确一个概念,即AOV网络,这个网络简单来讲就是一张有向图,表示一个流程,图的顶点表示活动(或者说完成一个流程的步骤),而有向边表示活动的优先关系,比如A——>B,表示先完成A,才能完成B。拓扑排序的排序对象就是这些顶点,也就是活动,按照拓扑排序得到的序列去执行每一个活动,不会出现步骤错乱的情况(比如A——>B,必须先完成A再完成B,反过来就不可以)。当然,拓扑排序也可用于排序AOE网络,本文主要讲AOV网络。
2024-11-18 23:14:17
338
原创 根据后缀表达式构建二叉树
基于栈构建二叉树,与后缀表达式求值的过程类似,只不过构建二叉树的栈保存的是结点而非操作数。以上代码假设给出的后缀表达式是合法的。
2024-11-12 20:37:13
192
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人