- 博客(22)
- 收藏
- 关注
原创 【自用】NLP算法面经(5)
正则化是机器学习中用于防止过拟合并提高模型泛化能力的技术。当模型过拟合时,它已经很好地学习了训练数据,甚至是训练数据中的噪声,所以可能无法在新的、未见过的数据上表现良好。比如:其中,x1和x2为特征,f为拟合模型,w1和w2为模型权重,b为模型偏执。左图拟合模型公式最高阶次为1,即一条直线,对应欠拟合;中间拟合模型公式最高阶次为2,即一条简单的曲线;右图拟合模型公式最高阶次为4甚至更高,即一条复杂的曲线,对应过拟合。可以看出,欠拟合时模型未有效学习数据中的信息,错分样本很多;
2025-03-19 22:17:00
921
原创 【自用】NLP算法面经(4)
在LLM生成过程中,是一个基于前向序列token预测下一个token的过程,序列中的token(无论是prefill阶段,还是decode阶段)只与它前面的token交互来计算attention。矩阵计算上通过一个下三角的causal attention mask来实现token交互只感知前向序列。
2025-03-02 00:39:15
988
原创 【自用】NLP算法面经(3)
transformer主要分为解码器和编码器两部分。相较之下,LLaMA仅使用了Transformer的解码器部分你,采用了一个仅解码器的结构。在结构上,与transformer模型相比,llama2的主要变化是将其中的layerNorm替换为了均方根标准化(RMSNorm),多头注意力换成了分组查询注意力(GQA,在llama中则是多查询注意力MQA),并将位置编码替换为了旋转编码(RoPE)。
2025-02-19 17:14:24
724
原创 【自用】NLP算法面经(2)
旋转位置编码(Rotary Position Embedding,RoPE)是论文Roformer:Enhanced Transformer With Rotary Position Embedding提出的一种能够将相对位置信息依赖集成到self-attention中并提升transformer架构性能的位置编码方式。和相对位置编码相比,RoPE具有更好的外推性。【什么是大模型外推性?外推性指大模型在训练时和预测时的输入长度不一致,导致模型的泛化能力下降的问题。
2024-12-02 20:39:52
888
原创 前后端集成,后端使用flask的问题日志记录
因为index.html里边的内容都是通过script标签引入的,而你的路径不对,打开肯定是空白的:assetsPublicPath默认的是’/’也就是根目录,而我们的index.html和static在同一级目录下面,所以要改为’./’// env项是借助插件babel-preset-env,下面这个配置说的是babel对es6,es7,es8进行转码,并且设置amd,commonjs这样的模块化文件,不进行转码。// 下面指的是在生成的文件中,不产生注释。// 此项指明,转码的规则。
2024-07-17 23:58:13
603
原创 【自用】NLP算法面经
深度学习是机器学习的一个分支。传统机器学习的特征提取主要依赖人工,针对特定简单任务时人工提取特征会简单有效,但是并不能通用。深度学习的特征提取并不依靠人工,而是机器自动提取的。Transformer是一种基于自注意力机制的神经网络模型。Transformer模型由编码器和解码器两部分组成,编码器用于将输入序列编码成一个高维向量表示,解码器用于将这个向量表示解码成目标序列。Transformer最核心的部分是自注意力机制,它能够让模型在不同位置之间进行信息传递和交互,从而更好地学习输入序列中的信息。
2024-05-18 02:14:35
1338
原创 【自用】LeetCode刷题记录(python版)
在矩阵中,O(V)=O(mn),O(E)≈O(4mn)=O(mn)。时间复杂度:O(mn),其中 m 和 n 分别是字符串word1和word2的长度。空间复杂度主要取决于缓存和递归调用深度,缓存的空间复杂度是 O(mn),递归调用深度不会超过 mn。空间复杂度:O(mn),其中 m 和 n 分别是字符串 word1和 word2 的长度。因此首先解决单个子数组的最大和问题,再解决两个无重叠子数组的最大和问题,最后解决三个无重叠子数组的最大和问题。因此可以O(1)地计算出向右滑动1个元素后的窗口的元素和。
2024-02-28 13:59:57
2677
1
原创 【记录】找不到nginx怎么办,一招解决!
2、假设这台服务器运行的是/usr/sbin/nginx,如果不确定这个nginx的配置文件是什么,用/usr/sbin/nginx -t查看配置文件路径,并且这个命令还可以检查配置文件的问题正确性。1、systemctl status nginx查看nginx状态,看是哪个路径下的nginx在运行。
2024-01-10 00:46:34
1230
原创 记录一下万恶的信息论课程设计
在疯狂的考试周里,信息论老师美美地安排了课程设计并要求在考试前一天完成,于是乎,在这周我面临了三门考试+一个课程设计,这样的生活不要太充实…不过既然要做,那肯定要有所收获,不然我白通宵了5555。
2023-12-13 22:57:00
244
1
原创 【总结】元学习实验预训练和元训练阶段的训练集、验证集、测试集如何划分
这个问题真的困扰我很久了!!!查了很多资料但是都没有说的很明白,今天问了师兄终于搞明白了,我太难了TAT。
2023-09-12 23:49:38
1189
2
原创 【持续更新】在Ubuntu上部署Go语言项目的bug记录...
正在写入或克隆git仓库的目录并没有写入的权限。:先修改目录权限然后再进行操作。
2023-08-15 22:56:16
390
1
原创 Vue监视数据的原理
1、Vue会监视的数据2、如何监测中的数据?通过setter实现监视,且要在new Vue时就传入要监测的数据(1)对象中后追加的属性,Vuem默认不做响应式处理或3、如何监测中的对象?通过包裹数组更新元素的方法实现,本质做了两件事:(1)调用原生对应的方法对数组进行更新(2)重新解析模板,进而更新页面4、在Vue修改数组中的某个元素一定要用如下方法:(1)使用这些API:push()pop()shift()unshift()splice()
2023-05-30 11:26:36
187
1
原创 【开发日记1】用Vue实现仿New Bing网页
NewBing的AI问答界面真的非常好看,重点突出一个简约大气,刚好最近在学Vue,模仿一个网页试试水~
2023-05-26 15:17:57
909
1
原创 【记录】实现windows和ubuntu之间的文件互传-使用FileZilla
FileZilla时一款免费的工具,基于FTP协议进行文件互传,在传输过程中我们的ubuntu是作为服务器,FileZilla工具则作为客户端。检查下面两行是否被注释掉,如果前面有用“#”号注释起来的话,去掉即可。2、安装好后检查/etc/vsftpd.conf配置文件。(3)输入”ip address show”回车。(2)按”ctrl+alt+t”打开控制台。(1)来到ubuntu系统的桌面。2、查看ubuntu的ip地址。
2023-05-24 21:01:28
1582
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人