- 博客(18)
- 收藏
- 关注
原创 大模型面试|大模型常考面经总结
和相对位置编码相比,RoPE 具有更好的外推性(大模型在训练时和预测时的输入长度不一致,导致模型的泛化能力下降。
2025-02-22 10:51:20
943
1
原创 从0开始手撕线性回归
在我们开始考虑如何用模型拟合(fit)数据之前,我们需要确定一个拟合程度的度量。损失函数(loss function)能够量化目标的实际值与预测值之间的差距。解析解:能用公式表达出来的解(对问题的限制很严格)即使在我们无法得到解析解的情况下,我们仍然可以有效地训练模型。在许多任务上,那些难以优化的模型效果要更好。因此,弄清楚如何训练这些难以优化的模型是非常重要的。
2024-07-18 01:59:44
218
原创 言简意赅学习Learning to (Learn at Test Time): RNNs with Expressive Hidden States
所有的序列建模层都可以表示为一个根据更新规则进行转换的隐藏状态。main idea:隐藏状态设为一个具有权重W的模型f,并将更新规则设为自监督损失ℓ的梯度步。测试时训练(Test-Time Training, TTT):在测试序列上更新隐藏状态等同于在测试时训练模型f。隐藏状态是一个自监督学习更新的模型。相当于把前向传播的参数用一个model来更新所有的序列建模层(sequence modeling layer)都可以视为该图中三个组件的不同实例:初始状态、更新规则和输出规则。
2024-07-16 23:01:54
1825
原创 RoseTTAFold All-Atom要成为全网第一个梳理RoseTTAFold的人
全网第一个有关RoseTTAFold All-Atom详解,包括RF1、RF2和Alphafold2对比。感谢支持,欢迎讨论。
2023-12-08 12:43:18
2746
5
原创 ChatGPT介绍详解
写在前面···作为半个曾经的NLPer,我一直很想从原理,从Transformer开始然后从GPT1-4然后RLHF介绍ChatGPT。但是就是在实验室听了来自人大高瓴的赵鑫老师的分享之后,感觉老师是从一个很宏观很大的一个角度去思考ChatGPT,可能对技术了如指掌的人才可能跳出技术去往大方面想,而像我这种对技术不了解的人满眼都是技术实现细节,有点一叶障目不见泰山的感觉。听了赵老师的分享后收获颇丰,打算记录下来也给大家分享一下,希望能给大家带来一些启发。转侵删。
2023-07-12 16:14:58
4728
2
原创 【算法学习】图网络GNN
数据结构——图(节点(node)和边(edge))GNN是一种连接模型,通过网络中节点之间的信息传递的方式来获取图中的依存关系,GNN通过从节点任意深度的邻居来更新该节点状态,这个状态能够表示状态信息。
2023-07-11 21:36:06
366
原创 【AcWing算法基础碎碎念】基础算法(785.快速排序)
主要思想:分治1.确定分界点:q[l] q[(1+r)/I] q[r] 随机2.调整范围:所有小于等于x在左边,大于等于x在右边(常考且最难)3.递归处理左右两段。
2023-04-04 12:46:07
126
1
原创 王木头老师的概率、统计、信息论课程知识整理笔记
王木头老师的概率、统计、信息论课程知识整理笔记;课程链接:https://www.bilibili.com/video/BV1vv4y1B714/?buvid=XY59A4353C6C047DC92698A0C0CAD8E3DE68C&is_story_h5=false&mid=SyYHtHRRJ0IEuWSbNvMuiQ%3D%3D&p=1&share_from=ugc&share_medium=android&share_plat=android&share_session_id=6f0c6606
2023-01-06 01:06:58
301
原创 【图像分割】终于跑通数据集了
害,这个专栏就简介一下垃圾入门计算机视觉吧www,留给自己看,说不定有用呢!跑的是一个unet++的pytorch实现,主要针对基于 UNet++ 的图像分割模型的代码:在 PyTorch 中实现的用于医学图像分割的嵌套 U-Net 架构。大佬的源码在这,数据集得按照read.me文件下,如果懒得下也可以私信邮箱问我要数据集。GitHub - 4uiiurz1/pytorch-nested-unet: PyTorch implementation of UNet++ (Nested U-Net)
2022-05-12 00:36:05
2281
16
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人