自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(114)
  • 收藏
  • 关注

原创 论文解读之Deepseek V3

1.从专业模型的推理模型(R1)蒸馏数据比从短CoT中训练的V2.5效果更好2.自反馈可以提升表现3.多token预测可加快解码速度。

2025-03-04 10:03:53 684

原创 力扣hot 100之矩阵四题解法总结

以四个状态标记当前移动的四个方向,当前移动的界限由其后一个方向已经转的圈数来界定,注意到状态3的前一个圈数为状态0,所以在状态2完成时要及时更新界限,否则状态3的界限会因晚更新而出错。原地标记,用第一行和第一列作为当前行列是否为0的标记,同时用两个标签分别记录0行、0列的标记空间中原本是否有0。matrix[i][j](原索引位置)​→matrix[j][n−1−i](旋转后索引位置)本期总结hot100 中二维矩阵的题,时空复杂度就不分析了。对于这种数组,右上角元素的特点:在单行中最大,在单列中最小。

2025-03-02 20:49:14 390

原创 强化学习笔记之引论

以上对奖励的梯度上升很直觉,即根据奖励的正负,决定对当前状态采取当前行动的一个方向,奖励为正,向该行动概率增加的方向优化参数;模型参数为前提的条件概率为,初始状态的概率*根据状态和参数采取行动1的概率*根据行动、状态1转换成状态2,奖励值1的概率...强化学习过程中奖励是一个偏好模型或者基于规则的奖励,跟模型参数无关;设置基线的策略:critic,评论家,以计算优势函数,评判actor的动作好的程度,也就是PPO算法中的价值模型。同时,乘的又是整个轨迹发生的reward,即最终的奖励。

2025-02-19 00:24:42 275

原创 论文解读之DeepSeek R1

deepseek主打复杂推理任务,如数学、代码任务。R1以预训练过的V1-base初始化,主要发挥了RL在长思维链上的优势,R1-Zero直接RL而在前置步骤中不进行SFT,即缺少了有监督的指令微调阶段,探索了思维链解决复杂问题的能力,使得R1-Zero表现出自我验证、反思、产生长思维链的能力;同时用较大的模型的复杂推理能力来蒸馏,以提升llama和qwen的推理能力。R1在数学、代码等benchmark上表现出色,一些数据集上超过O1。

2025-02-17 00:04:31 696

原创 论文解读之GPT1:Improving Language Understanding by Generative Pre-Training

GPT系列的特点是自监督大规模训练后在具体任务上进行有监督微调,事实证明这种方式可以有效利用大规模的无标签语料以提升模型对于自然语言的理解力,即使其调整参数以记忆足够多知识的模型。

2025-02-15 12:54:56 535

原创 论文解读之T5——Exploring the Limits of Transfer Learning with a UnifiedText-to-Text Transformer

T5是基于Encoder-Decoder结构的Transformer的模型,对经典的Transformer做了三个带动。其核心将NLP任务看作一个序列到序列的统一框架,做大规模的预训练,主打通用。最大将模型做到11B,基本上是Encoder-Decoder模型能够承受其训练成本的最大化,后文会引用另一位博主的分析为什么这种架构很难做得更大(区别于Decoder-only)区分任务的方式在于将输入的开头加入任务的描述,比如翻译、总结:2020年年初投稿。

2025-02-06 11:23:58 366

转载 力扣hot100之# Definition for singly-linked list.# class ListNode:# def __init__(self, val=0, next

链接:https://leetcode.cn/problems/merge-k-sorted-lists/solutions/2384305/liang-chong-fang-fa-zui-xiao-dui-fen-zhi-zbzx/建堆,因为堆适用于每次取出最大或最小,且插入元素的时间复杂度是O(logk),k为堆中元素个数。3.一次循环完,角标和最小值均被更新过,则说明还有这一轮还有节点;而每次需要插入的节点为每个链链首中最小的,下一个的道理等同。2.有节点则更新角标和最小值。

2025-01-20 23:34:30 30

原创 力扣hot100之螺旋矩阵

这种解法和大佬的方法二思路一致,其方法一则将当前状态以及该状态下对当前坐标的动作融合起来了,可以参考:https://leetcode.cn/problems/spiral-matrix/solutions/2966229/liang-chong-fang-fa-jian-ji-gao-xiao-pyt-4wzk。2.当前状态的结束状态依赖于下一个状态的完全执行次数。3.用遍历的元素数量作为退出循环的临界。1.用4个状态标记遍历的走向。

2025-01-19 23:35:22 326

原创 hot100之两数之和

1.字典,使用hash缩短查找target-num的速度,时间、空间复杂度均为O(n)2.先排序再滑动窗口,时间复杂度为O(nlogn)、空间复杂度为O(n)总结leetcodehot100系列开始,用python刷。

2025-01-19 17:36:46 208

原创 论文解读之QWEN

初代QWEN的几个模型的版本,以及大致训练方式。

2025-01-17 15:27:34 1191

原创 论文解读之Direct Preference Optimization:Your Language Model is Secretly a Reward Model

因为大语言模型基于无监督的训练方式, 控制模型的输出行为是很困难的,。需要控制模型向人类偏好的高质量的知识、合理的输出习惯、输出行为进行改善,这就涉及到偏好学习算法。此前的方法比如PPO(近端策略优化)是在人类对于模型的输出数据集进行打分后制作的偏好数据集上训练一个奖励模型,再使用这个奖励模型使用策略优化算法进行强化学习来使得模型来对齐人类的偏好。但是,以上的强化学习范式具有一些问题:过于复杂,包括:训练多个模型、在训练过程中对策略模型采样训练不稳定。

2025-01-14 10:50:37 1034

原创 统计模型Bradley-Terry 模型

Bradley-Terry 模型假设每个对象 i 都有一个潜在的“能力”或“偏好”参数 θi,这种能力决定了对象在成对比较中的胜率。通过这些参数,模型计算任意两个对象在比较或竞争中的胜负概率。

2025-01-13 14:22:43 558

原创 训练策略之Teacher Forcing

Teacher Forcing 是一种训练技术,涉及在模型生成序列的过程中,使用真实的目标输出(ground truth)而不是模型的预测输出来作为下一个时间步的输入。

2025-01-07 16:37:06 407 2

原创 论文解读之Continual Learning for Generative Retrieval over Dynamic Corpora

针对的任务:生成式检索:主要做的事情是使用参数模型,根据相关文档来预测他们的标识符(docid)。此任务尚且存在的问题:目前,针对此类任务的方法都是基于静态的文档集合的。在很多实际场景中,文档集合是动态的,新的文档被持续地添加进文档库。因此,在应用生成式检索时,需要具备增加新索引的同时具备保留回答检索的能力。(重新训练的话耗费太大)本篇解决上述问题,对生成式检索主要做出了两大贡献:1.提出增加乘积量化根据两种阈值以将新的文档以很低的代价编码成文档id。

2025-01-07 15:10:33 608

原创 论文解读之learning to summarize with human feedback

部分生成任务需要对齐人类偏好,但是根据最大化可能性(对数似然)进行微调的模型跟真正使用模型的人的喜好并不能直接匹配,即不对齐。这种不对齐的原因有:(1)最大化可能性目标对于重要和不重要的错误判别的差距不大。(2)模型会对人类的训练数据放置更大的可能性,其中包括低质量的训练数据。(3)采样时的分布偏移可能会降低表现。尽管第三点能够通过不均匀采样策略改善,比如束搜索,但是可能造成重复和不想要的捏造。本论文的团队基于GPT3和人类反馈强化学习进行了完整的偏好对齐的流程。

2025-01-03 20:09:03 568

原创 论文解读之Generative Dense Retrieval: Memory Can Be a Burden

生成式检索根据给定的查询,自回归地检索相关的文档标识符,在小规模的文档库中表现不错,通过使用模型参数记忆文档库,生成式检索实现了查询和文档之间的深层次交互。但是,这种记忆机制存在一些问题:1.对文档的细粒度特征记忆准确性不足2.当文档库规模变大时,记忆混淆情况加重3.新文档加入时记忆力更新的耗费很大,因为当新的文档到来时,文档聚簇树需要被更新,模型也需要被再次训练来记住所有的文档。本论文中,作者提出生成式稠密检索范式,从粗到细粒度的匹配路径上,利用稠密检索和生成式检索两种方式进行优劣互补。

2025-01-03 17:07:35 965

原创 论文解读之Transformer Memory as a Differentiable Search Index

信息检索系统将query映射为整型或者字符串形式的document identifiers(docid),通常分为检索和排序两步。本文介绍将信息检索融入Transformer的参数中的开篇之作——DSI,提出了一种新的序列到序列的学习系统架构范式直接将query映射为整型或者字符串形式的document identifiers(docid)

2025-01-02 13:23:20 589

原创 论文解读之Chain-of-Thought Prompting Elicits Reasoning in Large Language Models(CoT)

CoT的核心在于在prompt中使得模型将较大的问题输入拆解逐步的思维链的输出方案,属于prompt中的技巧,可以提升LLM在复杂问题上的表现,并且能够增强其可解释性(指的是在输出错误时追溯哪一步解答方案出错)。

2024-12-20 10:54:11 605

原创 论文解读之SDXL: Improving Latent Diffusion Models forHigh-Resolution Image Synthesis

SDXL是SD的改进版本,采用了三倍更大的Unet主干网络(其增大的参数主要由于更多的注意力块和使用第二个文本编码器带来的更大的交叉注意力机制的内容)设计了多个新的限制方案,并且在多个比例上进行了训练。引进了一个完善模型——用来改善采样结果的真实性。

2024-11-10 21:01:35 476

原创 论文解读之mask2former

这是一个能够执行三大分割通用任务(语义、实例、全景)的网络第一次在三大任务上胜过每个任务的专用分割SOTA模型。

2024-11-08 15:29:57 2070

原创 Python深浅拷贝及实现

在Python中,深浅拷贝是数据复制的两种方式。浅拷贝复制的是对象的引用,深拷贝则完全复制对象的值。print(shallow_copy) # 输出: [1, 2, ['changed', 4]]print(deep_copy) # 输出: [1, 2, [3, 4]]浅拷贝只复制对象的引用,而深拷贝复制了整个对象及其嵌套对象。

2024-11-07 13:05:01 258

转载 自然常数e的来源和为什么选择e作为交叉熵损失函数的底数

‌:在信息论中,信息量的定义通常使用自然对数。自然对数的底数e是一个重要的数学常数,约等于2.71828。使用自然对数可以更好地反映信息的本质,因为自然对数在信息论中有其独特的性质和优势‌12。‌。

2024-11-07 11:09:56 145

原创 重装linux系统(ubuntu)后使用Mount挂载原数据盘过程

第二,使用sudo fdisk -l。如mkdir /data_sda。第三,使用mount命令挂载,如。将sda挂载在data_sda下。查看未挂载的数据盘信息。

2024-11-05 13:33:39 208

转载 DDPM的Diffusion过程的代码实现

return x_t转自加噪过程的代码实现。

2024-11-03 17:17:42 42

原创 论文解读之Image2image-turbo

image2image-turbo作为一个使用CycleGAN形式进行训练的图生图Diffusion的网络,主要解决了两方面条件扩散模型的显存局限性:1.由于迭代去噪过程而很慢的推理速度2.依赖成对数据的模型微调。

2024-11-01 11:08:20 386

原创 论文解读之High-Resolution Image Synthesis with Latent Diffusion Models(Stable Diffusion)

本文是Stable Diffusion等一系列扩散模型的里程碑,主要解决的问题是Diffusion模型在原始的像素空间中需要的计算资源过多的问题。

2024-10-29 20:43:06 992

原创 huggingface设置国内镜像源以及登陆之后下载模型示例

有一些较大的模型权重直接去官网下很不方便,所以找了一下设置国内镜像源并设置token登陆的方法。一般开开权限的库可以随便下载,没开开的先去库里面填个表申请,一般提交以后秒获得库的权限。后面是下载的地址,好处是这种方式可以在断掉之后用缓存接着下载。前面是设置国内镜像源,否则可能出现网络问题。1.去官网设置自己账号的token。具体在这里添加,将所有权限都开开。

2024-10-27 21:52:58 3377

原创 libavdevice.so.58: cannot open shared object file: No such file ordirectory踩坑

二、ImportError: /lib/x86_64-linux-gnu/libgobject-2.0.so.0: undefined symbol: ffi_type_uint32, version LIBFFI_BASE_7.0。产生原因,各种包集成,然后安装以后乱七八糟,甚至官方的教程也不规范导致没有添加路径到系统文件导致系统执行的时候找不到。问题一、linux编译后,找不到ffmpeg中的一个文件。博主进行的离线安装,分别下载yums\ffmpeg。博主是将大图切分成小图时遇到。

2024-10-25 19:47:28 917

原创 Docker加载并运行别人的容器的同时挂在本地其他文件

正确示范:sudo docker run -it --name hunyuandit12new --gpus all --init --net=host --uts=host --ipc=host --security-opt=seccomp=unconfined --ulimit=stack=67108864 --ulimit=memlock=-1 -v /home/xuyimeng_aixym:/workspace mirrors.tencent.com/neowywang/hunyua。

2024-10-24 21:04:34 608

原创 ImportError: cannot import name ‘cached_download‘ from ‘huggingface_hub‘踩坑记

追溯以上的包的调用信息,挨个将diffusers、huggingface卸载然后升级最新版。一般遇到这种导入模块没有,或者是检查某一个文件中的哪些配置不正确。

2024-10-18 22:22:44 7551 8

原创 较新(24.3)加速Diffusion模型推理的方法,附带参考文献

2.将原来的扩散模型作为教师,蒸馏到更快的少步学生网络。3.一些采用一致性模型训练。4.改用GAN做生成。

2024-10-18 20:02:05 598

原创 Variational Auto-Encoder(VAE)缺少数学推导未完结版

VAE(变量自编码器)最早在以上两篇文章被提出。VAE与自编码器类似包括从原始的数据将其编码到潜在空间(隐藏表示空间,维度更低)中的变量z、以及将变量z还原到原来的空间x的解码器,不同的是,它是对分布的均值和标准差进行估计。

2024-10-13 21:10:33 334

原创 无神论文解读之ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models

ControlNet是一种能够控制模型生成内容的方法,能够对文生图等模型添加限制信息(边缘、深度图、法向量图、姿势点图等),在当今生成比较火的时代很流行。这种方法使得能够直接提供空间信息控制图片以更细粒度地得到想要的生成图片,这种方法能够以一个端到端的方式来实现这个挑战。先看看其主要方法,将原先的预训练网络冻结,然后做一个可训练的复制,再使用0初始化的1*1卷积( 保证开始训练时没有额外噪声加入进来)将这个复制的网络连成一个支路。

2024-10-05 12:41:54 638

原创 onnxruntime/capi/onnxruntime_inference_collection.py:54: UserWarning: provider ‘CUDAExecutionProvide

2.直接pip安装(最快),如:pip install onnxruntime_gpu==1.12.1,如果原来镜像源里面没有,加-i 这两个就可以找到https://pypi.org/simple, https://pypi.ngc.nvidia.com。反面教材:按照某些博主的说法重装了Conda中集成的CUDAtoolkit无效,甚至让我到了想要重装CUdNN的地步。原因:安装的不是GPU版本,所以模型在CPU上跑会很慢很慢。1.去网站找对应平台的GPU版本。

2024-10-02 16:09:19 863 2

原创 error -- unsupported GNU version gcc later than 10 are not supported;(gcc、g++)

没有合适的版本的话需要root权限指定版本安装。备案,以后有人要用12我还得换回来。方案一:更改gcc和gcc+的版本。想了下是系统找不到编译器。

2024-09-22 18:09:22 691

原创 表示学习和自编码器(autoencoder)

其学习到的表示往往比手动设计的表示表现更优,而且只需要最少的人工干预,就能让AI模型更好适应新的任务。编码器函数将输入数据转换为一种不同的表示,而解码器函数则将这个新的表示转换为原来输入的形式。对于许多机器学习任务来说,很难知道应该提取哪些特征,比如——想要写代码检测图片中的某一个器官,然而,这个器官会随着场景的变化有各种形态。这些因素通常不是能够被直接观察到的量,但是却是影响可观测的量。设计自编码器的目的在于:使输入数据在经过编码器和解码器之后尽可能多地保留信息,同时希望新的表示有各种好的特性。

2024-08-12 15:26:22 257

原创 #旷视 2025秋季校园招聘正式启动啦!

链接:https://mp.weixin.qq.com/s/B3PU2jtQ-1FrEv1W7JmONA。#旷视 2025秋季校园招聘正式启动啦!✅算法、研发技术、产品/解决方案、交付!📣超多选择在旷视,期待你的火线加入!✅北京、上海、成都、重庆、武汉!【五大城市】向你发出应聘邀请。内推码:DSXwkAST。【四大岗位】开放投递。

2024-08-08 10:28:17 451

原创 论文解读之Hunyuan-DiT

Hunyuan-DiT : A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding。

2024-07-28 23:33:09 524

原创 旷视 | 2025届MegEagle创视者计划正式启动!

旷视 | 2025届MegEagle创视者计划正式启动!这是旷视面向全球高校毕业生推出的一项尖端人才招募计划。我们寻找有梦想、有潜力的技术人才并肩作战,ps:投递本计划不会影响后续校招的投递。七个职位、北京+上海两大城市招聘。7月19日起网申全面启动。共同打造人工智能新纪元!内推码:DSXwkAST。

2024-07-21 17:34:45 239 1

原创 深度学习算法面经(高频核心问题总结,持续更新)

注意力是很稀缺的,万物将注意力聚集在所获得信息的一部分上(通过感官获得的信息很多,将有限的注意力集中在少部分有用的信息上有利于资源分配而进行各种生命活动)。注意力提示有自主性和非自住性提示。非自主性提示是基于环境中物体的突出性和易见性:如黑白色物体中一个鲜艳颜色的物体;在喝完咖啡后注意力在意志的推动下注意力聚集在黑白色书本上,这就是属于自主性提示的辅助。在注意力机制的背景下,自主性提示被称为查询(query)。给定任何查询,注意力机制通过注意力汇聚。

2024-06-19 17:07:55 1422

山东大学(威海)90分+《深度学习》课程期末考试考纲核心问题之上

《深度学习》考纲以及问题总结,业界良心,几乎不收费,结课成绩90+,觉得满意的客官给个一键三连哦。

2023-09-01

测试开发行业面经(word总结版,主页可见百度测开实习岗位面经)

测开面经,精心总结含有少量答案,欢迎有更完善知识体系的小伙伴进行总结和完善。 适合测开领域的初中级程序猿们进行食用。

2023-08-18

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除