
深度学习
文章平均质量分 85
N刻后告诉你
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
[读论文]Transformers are SSMs
NotationTTT: Sequence length/ time length$$:摘要虽然transformer一直是深度学习在语言建模方面成功的主要架构,但状态空间模型(ssm),如Mamba,最近被证明在中小规模上与transformer相匹配或优于transformer。这些模型族实际上是非常密切相关的,并在ssm和注意力变体之间发展了一个丰富的理论联系框架,通过对一类经过充分研究的结构化半可分矩阵的各种分解连接起来。状态空间对偶(SSD)框架使我们能够设计一个新的架构(Mamba-2)原创 2024-07-14 00:16:13 · 1219 阅读 · 0 评论 -
[读论文]Mamba4Rec: Towards Efficient Sequential Recommendation with Selective State Space Models
序列推荐旨在评估动态的用户偏好以及用户历史行为之间的序列依赖关系。尽管基于transformer的模型已被证明对序列推荐是有效的,但它们受到注意力算子的二次计算复杂性导致的推理效率低下的问题的困扰,特别是对于长程行为序列。受最近状态空间模型(ssm)成功的启发,本文提出Mamba4Rec,这是第一个探索选择性ssm高效序列推荐潜力的工作。基于基础的Mamba模块,即一个带有硬件感知并行算法的选择性SSM,我们结合了一系列序列建模技术,在保证推理效率的同时,进一步提升模型性能。原创 2024-07-11 17:43:43 · 1552 阅读 · 0 评论 -
[学习笔记](b站视频)PyTorch深度学习快速入门教程(绝对通俗易懂!)【小土堆】
前面P1-P5属于环境安装,略过。原创 2024-06-02 22:06:40 · 1034 阅读 · 0 评论 -
[代码复现]Self-Attentive Sequential Recommendation
文中有疑问的地方用?表示了。可以通过ctrl+F搜索’?原创 2024-05-30 22:54:27 · 1252 阅读 · 0 评论 -
[学习笔记]知乎文章-PyTorch的Transformer
的tensor,注意数据类型是浮点类型。可以设置对角线偏移。原创 2024-05-30 22:53:33 · 505 阅读 · 0 评论 -
[读论文]精读Self-Attentive Sequential Recommendation
顺序动态是许多现代推荐系统的一个关键特征,这些系统试图根据用户最近执行的操作来捕获用户活动的“上下文”。马尔可夫链(MC)和递归神经网络(RNN)。马尔可夫链假设用户的下一个动作可以仅根据他们最后(或最后几个)动作来预测,而 RNN 原则上允许发现长期语义。一般来说,基于MC 的方法在极稀疏的数据集中表现最好,其中模型精简至关重要,而RNN 在更密集的数据集中表现更好,在这些数据集中,模型复杂性更高。原创 2024-05-25 17:03:36 · 1524 阅读 · 0 评论 -
深度学习环境配置:(windows环境)WSL2-Ubuntu+(mac环境)
流程可参考:https://www.bilibili.com/video/BV1mX4y177dJ注意:中间可能需要使用命令更新一下wsl。原创 2024-05-15 16:19:11 · 1277 阅读 · 0 评论 -
[公开课学习]台大李宏毅-自注意力机制 & Transformer
存在一些问题,每个向量有一个输出结果,被称为不知道有多少输出结果,被称为seq2seq。原创 2024-05-08 21:29:03 · 1161 阅读 · 0 评论 -
[学习笔记]pytorch tutorial
使用预训练的ResNet 18 CNN,有18层深(CNN的层数一般就是指具有权重/参数的层数总和),可以进行1000分类。会创建一个简单的flask应用,带有rest api,并且以json数据作为返回。实现激活函数:nn.xxx, torch.xxx, F.xxx。成更高维度的tensor,其拓展的维度由。3.如何保存和加载Checkpoint。4.在GPU/CPU上保存/加载。pytorch会进行数字数字分类。是将相同大小的tensor。2.只需要保存参数(推荐)衡量分类模型的表现。原创 2024-04-03 15:58:56 · 961 阅读 · 2 评论 -
[学习笔记]CNN代码实战
1.2.原创 2024-03-23 18:00:00 · 435 阅读 · 0 评论 -
[学习笔记]刘知远团队大模型技术与交叉应用L6-基于大模型文本理解和生成介绍
IR系统分为两个阶段:Retrieval阶段:对整个文档库排序后,抽回一部分相关文档的子集。主要考虑召回率。Re-Rankink阶段:精排序主要的机器问答类型:机器阅读理解、开放域问答、基于知识库问答、对话式QA完形填空多选抽取式阅读理解(原文找答案)data-to-text: 可以把一些非语言性的表示的信息,通过模型,以人类可以理解的语言表示出来。例子:seq2seq比较知名的模型:T5T5是在一个被清洗过的爬取的数据集上训练的。输入时,会将其中一部分mask,在训练和模型策略上。原创 2024-02-02 15:05:35 · 719 阅读 · 0 评论 -
[学习笔记]刘知远团队大模型技术与交叉应用L5-BMSystem
表现:高效,便宜使用时只需要进行简单替换。介绍大规模预训练模型压缩的相关技术。以及相关工具包BMCook。下表是PLMs模型增长的趋势。如何将大规模的计算量降下来,同时保留PLMs学习到的能力。所以希望将大规模模型压缩。同时小模型基本上继承大模型的能力。有效的方法可能包括:知识蒸馏;模型剪枝;模型量化;模型的专家化现在的PLMs是十分过参数化的。有一些方法被用于提高模型效率。BMCook是一个工具包。它的目的是结合已有的有效的模型压缩方法,加速现有大规模模型。原创 2024-01-28 21:56:45 · 1071 阅读 · 0 评论 -
[学习笔记]刘知远团队大模型技术与交叉应用L4-Prompt-learning & Delta-learning
预训练和fine-tuning有一定的gap。毕竟是不同的任务。通过额外增加模版。映射到标签的过程称为verbalizer。这样就使用了mask任务。弥补了不同之间的gap。原创 2024-01-21 22:47:30 · 870 阅读 · 0 评论 -
[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs
BPE提出主要是为了解决OOV的问题:会出现一些在词表中没有出现过的词。原创 2024-01-21 22:47:08 · 672 阅读 · 0 评论 -
[学习笔记]刘知远团队大模型技术与交叉应用-汇总
视频:【清华NLP】刘知远团队大模型公开课全网首发|带你从入门到实战[学习笔记]刘知远团队大模型技术与交叉应用L1-NLP&Big Model Basics[学习笔记]刘知远团队大模型技术与交叉应用L2-Neural Network Basics原创 2024-01-14 21:08:55 · 959 阅读 · 0 评论 -
[学习笔记]刘知远团队大模型技术与交叉应用L2-Neural Network Basics
本节首先介绍神经网络的一些基本构成部分。然后简要介绍神经网络的训练方式。介绍一种基于神经网络的形成词汇的向量表示的方法。接下来继续介绍常见的神经网络结构:RNN和CNN。最后使用PyTorch演示一个NLP任务的一个完整训练的Pipeline。原创 2024-01-14 21:08:22 · 1093 阅读 · 0 评论 -
[学习笔记]刘知远团队大模型技术与交叉应用L1-NLP&Big Model Basics
相关知识,如Linux命令,Git命令等,需要自己了解。原创 2024-01-14 21:06:45 · 1694 阅读 · 0 评论 -
[学习笔记]PageRank算法
对于Column Stochastic矩阵,由Perreon-Frobenius定理,最大的特征值就是1,且存在唯一的主特征向量(特征值1对应的特征向量),向量所有元素求和为1。random walks with restarts:随机游走,并有传送到指定的一个节点,继续游走。pagerank的一种解释是:随机游走,并有概率随机传送到网络中的任意一个节点,继续游走。所以考虑一个网站是否重要,需要看引用它的网站是否重要,这就成了一个递归的问题。的节点的rank值,各自除以它的出度,再求和。原创 2023-09-11 17:46:22 · 1089 阅读 · 1 评论 -
[学习笔记]Node2Vec图神经网络论文精读
参考资料:https://www.bilibili.com/video/BV1BS4y1E7tf/?原创 2023-09-10 12:13:01 · 639 阅读 · 0 评论 -
[学习笔记]词向量模型-Word2vec
skip-gram只有一组完整的中心词向量,没法像之前一样将中心词向量和周围词向量相加求平均。与skip-gram的层次softmax的区别是u0是上下文词向量avg。开n次方根是为了避免长句子的概率比小句子概率小,导致评价偏颇。重要的词往往出现的频率比较小,不重要的词往往出现的频率比较高。语言模型是计算一个句子是句子的概率的模型。下面的skip-gram和cbow也都是Log线性模型。不同模型的E和T认为一样,所以下面用Q来代表模型复杂度。简单,但词越多,向量越长。语言模型是无监督的,不需要标注语料。原创 2023-09-10 10:16:23 · 534 阅读 · 0 评论 -
[学习笔记]DeepWalk图神经网络论文精读
核心思想:随机游走=句子GVEG=(V,E)GVEGLVEXYGLVEXYX∈R∣V∣×SX∈R∣V∣×S:每个节点有S维特征Y∈R∣V∣×∣Y∣Y∈R∣V∣×∣Y∣:每个节点有YY个标签任务:relational classification(不满足独立同分布假设)目标:学到XE∈Rr∣V∣×dXE∈Rr∣V∣×d:d是词嵌入后的维度。原创 2023-09-09 11:46:45 · 433 阅读 · 0 评论 -
[学习笔记]CS224W(图机器学习) 2022/2023年冬学习笔记
介绍的结构特征可以分为:节点的度不同节点的重要度度量可用于预测有影响力的节点节点的度聚类系数GDV可用于预测节点在图中的功能,桥接、枢纽、中心。原创 2023-09-06 16:08:02 · 2021 阅读 · 0 评论 -
[学习笔记]动手学深度学习v2
[学习笔记]动手学深度学习v2原创 2023-03-16 00:01:12 · 1014 阅读 · 0 评论