- 博客(33)
- 收藏
- 关注
原创 Alias-Free Latent Diffusion Models:Improving Fractional Shift Equivariance of Diffusion Latent Spac
读完论文的主要内容后,我们可以总结论文的贡献:我们追溯了潜扩散模型编辑不稳定的主要原因:缺乏分数平移同变性。我们设计了一种无混叠的潜扩散模型 (AF-LDM),它能够有效提升 LDM 的平移同变性。从技术贡献上看,我们提出了简明有效的同变损失,以防止加入了抗混叠模块的模型在训练中损失同变性。此外,我们分析了自注意力运算不够稳定的原因,并通过在同变损失里加入同变注意力来提升模型对参考帧的相对同变性。我们在多项任务中展示了 AF-LDM 广泛的应用前景。其中,我认为第一项贡献是最重要的。
2025-04-03 14:01:04
1051
原创 Deepfake Detection of Face Images based on aConvolutional Neural Network——基于卷积神经网络的人脸图像深度伪造检测
假新闻,特别是deepfakes(生成的非真实图像或视频内容)在过去几年中已经成为一个严肃的话题。随着机器学习算法的出现,现在比以往任何时候都更容易生成这种虚假内容,即使是对私人来说。生成的虚假图像的问题在政治和公众人物的背景下尤其重要。我们希望通过构建基于卷积神经网络的模型来解决这一冲突,以便检测此类显示人类肖像的生成和伪造图像。作为基础,我们使用预训练的ResNet-50模型,因为它在分类图像方面很有效。然后,我们采用基本模型来将单个图像分类为真实图像。
2025-03-18 14:52:44
884
原创 A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS——大型语言模型的训练后优化综述——第8部分——数据
后训练技术被精心设计以提高LLMs对特定领域或任务的适应性,而数据集则是这一优化过程的基石。对先前研究[457, 82]的仔细审查强调了数据的质量、多样性和相关性如何深刻影响模型的有效性,并经常决定后训练努力的成功与否。为了阐明数据集在此背景下的关键作用,本文提供了对后训练阶段所使用数据集的一个全面回顾和深入分析,并根据其收集方法将它们分类为三种主要类型:人工标记数据、提炼数据和合成数据。这些类别反映了数据管理中的不同策略,模型可能采用单一方法或结合多种类型的混合方法来平衡可扩展性、成本和性能。
2025-03-18 13:06:29
520
原创 A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS——大型语言模型的训练后优化综述——第9部分——应用
尽管预训练为大型语言模型(LLMs)赋予了强大的基础能力,在现实世界的应用中,这些不足显得尤为重要,因为在这些场景中,精确性、可靠性和伦理一致性是至关重要的。这些问题引发了一些根本性的探讨:(1) 如何系统地提高LLM的表现以满足特定领域的需求?(2) 在实际应用环境中,有哪些策略可以有效缓解内在的实际障碍?后训练成为了一个关键解决方案,通过改进LLMs对特定领域术语和推理模式的识别来增强其适应性,同时保持其广泛的竞争力。
2025-03-18 13:00:18
1049
原创 Post-training Language Models,PoLMs-概况
国内外14家机构的研究人员,用87页文章,对LLM的后训练方法(Post-training Language Models,PoLMs)进行了全面综述该文章追溯了追踪从GPT-3(2020年)→ChatGPT(2022年)→DeepSeek-R1(2025年)的后训练进展,时间线如下:2018-2021年(LLM基础时期) • BERT和GPT确立了预训练和微调范式。• 基于Transformer的模型提升了文本生成和理解能力。2022-2023年(后训练方法的崛起)• 引入了RLHF(人类反
2025-03-17 19:43:46
1170
原创 A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS——大型语言模型的训练后优化综述——第10部分——开放问题和未来方向
在本节中,我们批判性地评估了大型语言模型(LLMs)后训练方法中的未解决问题和潜在发展轨迹,分析基于OpenAI的o1 [41] 和DeepSeek-R1 [28] 的发布所带来的变革性进展。这些模型利用大规模强化学习(RL),重新定义了推理基准,但它们的出现放大了后训练技术中持续存在的局限性的紧迫性。以下小节概述了六个关键的开放问题,每个问题都强调了其对领域发展的至关重要性和解决的紧迫性,以及推动未来研究并确保LLMs在多样化应用中负责任发展的可行策略。
2025-03-17 19:41:54
945
原创 AI Agent--李宏毅
目前agent没有统一的定义,有人认为有物理实体的机器人才是AI agent,这没问题,李老师的课程将AI agent的定义限定为能自主完成人类目标的AI。人给一个目标,agent根据环境对目标做出行为,然后环境发生变化,agent再根据环境的变化做出决策,直到结束。举个例子:阿尔法狗。
2025-03-16 17:55:51
1116
原创 A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS——大型语言模型的训练后优化综述——第2部分
RM1(显式或隐式奖励模型)RM2(点奖励或偏好概率模型)RM3(响应级或令牌级奖励)RM4(正向或负向奖励模型)F(反馈类型:人类或AI)RL1(参考模型或无参考模型的RL)RL2(在线策略或离线策略RL)O(在线/迭代或离线/非迭代优化)通过对这些指标的评估,可以帮助研究人员和实践者根据特定需求选择最适合的对齐方法。这些方法各自具有不同的特点,可以根据应用场景的不同要求进行调整和应用。奖励训练 (Reward Training)
2025-03-15 22:05:37
863
原创 A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS——大型语言模型的训练后优化综述——第一部分
大型语言模型(LLMs)的进步构成了自然语言处理(NLP)中的一个关键章节,而后训练方法作为其从通用预训练架构到特定任务自适应系统的演进中的重要催化剂。本节概述了后训练语言模型(PoLMs)的历史轨迹,追溯了它们从BERT [2] 和GPT [1] 等基础预训练里程碑发展到当代如o1 [41] 和DeepSeek-R1 [28] 等先进后训练范式的历程。图3所示的这一进程反映了从建立广泛的语言能力到增强任务特定适应性、伦理对齐、推理复杂性以及多模态集成的转变,标志着LLM能力的一次变革之旅。
2025-03-15 21:43:34
1303
原创 Attributing Fake Images to GANs: Learning and Analyzing GAN Fingerprints————将虚假图像归因于GAN:学习和分析GAN指纹
"Attributing Fake Images to GANs: Learning and Analyzing GAN Fingerprints" 这篇论文在2019年的国际计算机视觉会议(ICCV)上发表。这篇论文《Attributing Fake Images to GANs: Learning and Analyzing GAN Fingerprints》的核心思想是探索和验证生成对抗网络(GANs)生成的图像是否携带独特的“指纹”,这些指纹可以用来识别图像是否由GAN生成以及具体是由哪一个GAN模
2025-03-12 19:33:46
816
原创 L2G2000Lagent 自定义你的 Agent 智能体
Lagent 是一个轻量级开源智能体框架,旨在让用户可以高效地构建基于大语言模型的智能体。同时它也提供了一些典型工具以增强大语言模型的能力。Arxiv 搜索Bing 地图Google 学术搜索Google 搜索交互式 IPython 解释器IPython 解释器PPTPython 解释器。
2025-03-11 15:13:34
904
原创 Exploring Frequency Adversarial Attacks for Face Forgery Detection——探索用于面部伪造检测的频率对抗攻击论文解读(对抗攻击)
现有的攻击方法大多被视为空间对抗攻击,它们在像素级别上修改对抗样本。由于篇幅限制,这里只介绍用于实验比较的两种空间对抗攻击方法。更多变种可以参考。快速梯度符号法 (FGSM):FGSM [15]是一种单步攻击方法,基于对抗损失的梯度计算扰动。投影梯度下降 (PGD):PGSM [31]是FGSM的一个多步变体。同时,它采用首次迭代时对扰动的随机初始化。更新过程定义为。
2025-03-09 13:48:02
768
原创 L1G6000OpenCompass 评测书生大模型实践
本节课程聚焦于大语言模型的评测,在后续的课程中我们将介绍多模态大模型的评测方法。OpenCompass 提供了和两种方式。其中 API 模式评测针对那些以 API 服务形式部署的模型,而本地直接评测则面向那些可以获取到模型权重文件的情况。我们首先在训练营提供的开发机上创建用于评测 conda 环境:cd /rootpip install -e .#等的比较久,不运行这个的话 后面会一直报错,缺少各种包的错误,这句运行了,就不用一直安装各种包,避免报错(后面自己装也是会出现版本错误)
2025-03-08 10:22:31
648
原创 L1G5000XTuner 微调个人小助手认知
本节中,我们将演示如何安装 XTuner。推荐使用 Python-3.10 的 conda 虚拟环境安装 XTuner。
2025-03-06 22:19:39
735
原创 L1G4000InternLM + LlamaIndex RAG 实践
Einops主要用于简化和优化深度学习中的张量操作,使得代码更加易读和高效。Protobuf则是一个强大的序列化工具,适合需要高效、可靠地传输和存储结构化数据的应用场景。环境激活后,命令行左边会显示当前(也就是llamaindex。
2025-03-05 21:01:08
903
原创 2. LangGPT结构化提示词
LangGPT 是的简称,中文名为结构化提示词。LangGPT 是一个帮助你编写高质量提示词的工具,理论基础是我们提出的一套模块化、标准化的提示词编写方法论——结构化提示词。我们希望揭开提示工程的神秘面纱,为大众提供一套可操作、可复现的提示词方法论、工具和交流社群。我们的愿景是让人人都能写出高质量提示词。
2025-03-05 15:50:59
748
原创 L1G2000玩转书生「多模态对话」与「AI搜索」产品
一般情况下主节点会根据子节点得出的结论,总结形成最终回复部分情况下,主节点会根据子节点得到的结论进一步拆解子问题回到步骤 (1) 直到得到最终结论。
2025-03-05 15:39:56
692
原创 L1G3000浦语提示词工程实践
Prompt是一种用于指导以大语言模型为代表的生成式人工智能生成内容(文本、图像、视频等)的输入方式。它通常是一个简短的文本或问题,用于描述任务和要求。Prompt可以包含一些特定的关键词或短语,用于引导模型生成符合特定主题或风格的内容。例如,如果我们要生成一篇关于“人工智能”的文章,我们可以使用“人工智能”作为Prompt,让模型生成一篇关于人工智能的介绍、应用、发展等方面的文章。Prompt还可以包含一些特定的指令或要求,用于控制生成文本的语气、风格、长度等方面。
2025-03-04 17:09:51
688
原创 L1G1000书生大模型全链路开源体系
这些核心技术思路体现了书生大模型在设计和开发过程中的迭代、数据驱动和智能化的特点,旨在通过不断的自我优化和学习,提高模型的性能和适应性,以满足各种复杂的应用场景。经典的问答大模型,智能体MindSearch,能够在挥发时更加的智能,更符合提问的需求,还能由此生成更进一步的内容,类如下图中的思考。数据过滤&智能评估:在模型训练过程中,对收集到的数据进行筛选和清洗,确保只有高质量的数据被用于模型训练,从而提高模型的性能和准确性。利用模型的能力辅助人工标注,提高数据标注的效率和质量,进一步优化模型的训练数据。
2025-03-04 16:15:31
578
原创 L0G4000玩转HF/魔搭/魔乐社区2.2 魔搭社区平台
ModelScope 是一个“模型即服务”(MaaS)平台,由阿里巴巴集团的达摩院推出和维护。它旨在汇集来自AI社区的最先进的机器学习模型,并简化在实际应用中使用AI模型的流程。通过ModelScope,用户可以轻松地探索、推理、微调和部署各种AI模型。
2025-03-04 15:25:23
652
原创 L0G4000玩转HF/魔搭/魔乐社区
Spaces 使得开发者可以快速将我们的模型部署为可交互的 web 应用,且无需担心后端基础设施或部署的复杂性。下图看连接上了已经,但是问题是在VS code软件中不能打开终端,应该如下图所示 右机在浏览器打开 这样就在浏览器中就可以看见终端打开了(或者是你在GitHub codespace进VS code会跳出来一个新的窗口,在新的窗口中也可以打开终端)注意到在CodeSpace平台上是没有GPU资源的,因此我们Python代码中只使用CPU进行推理,我们需要修改跟CUDA有关的API,在。
2025-03-04 14:17:32
816
原创 书生-第2关L0G2000Python 基础知识-任务三
目录下,并成功在一个新建的python文件中引用。创建完成后最好查看一下 之后按照要求装numpy。装上之后运行一下不报错说明安装没有问题。-p就是不存在会创建 存在不会报错。使用VScode连接开发机后使用。命令安装一个numpy到看开发机。
2025-03-02 16:04:05
112
原创 书生-第2关L0G2000Python 基础知识-任务二--调用书生浦语API实现将非结构化文本转化成结构化json的例子
书生浦语InternLM2.5是上海人工智能实验室于2024年7月推出的新一代大语言模型,提供1.8B、7B和20B三种参数版本,以适应不同需求。请帮我从以下``内的这段模型介绍文字中提取关于该模型的信息,要求包含模型名字、开发机构、提供参数版本、上下文长度四个内容,以json格式返回。print("LLM 输出中未找到有效的 JSON 数据,请检查 Prompt 是否明确要求返回 JSON 格式。{"role": "user", "content": prompt}, # 用户的角色和内容。
2025-03-02 15:13:50
538
1
原创 383. 赎金信
count[ord(c) - ord('a')] += 1 # 将字符映射到数组索引(如'a'→0,'b'→1)if count[index] < 0: # 若字符不足,直接返回False。count[index] -= 1 # 消耗该字符。return True # 所有字符均满足条件。# 检查ransomNote中的字符是否可用。# 初始化字符计数数组(小写字母共26个)# 统计magazine中各字符的出现次数。
2025-03-01 22:29:58
236
原创 Conda
Conda 是一个开源的包管理和环境管理系统,可在 Windows、macOS 和 Linux 上运行。它快速安装、运行和更新软件包及其依赖项。使用 Conda,您可以轻松在本地计算机上创建、保存、加载和切换不同的环境。在开发机中已经安装了conda,我们可以直接使用,而且开发机中也有内置的conda命令,下面我们会介绍conda的基本使用,还有的使用方法以及介绍一下是怎么实现的。conda设置conda环境管理conda和pipstudio-conda使用与Shell(扩展)
2025-03-01 18:02:48
969
原创 3.2 进程管理
它是 NVIDIA 系统管理接口(NVIDIA System Management Interface)的命令行工具,用于监控和管理 NVIDIA GPU 设备。它提供了一种快速查看 GPU 状态、使用情况、温度、内存使用情况、电源使用情况以及运行在 GPU 上的进程等信息的方法。是一个终端多路复用器。它可以在多个终端之间轻松切换,分离它们(这不会杀死终端,它们继续在后台运行)和将它们重新连接到其他终端中。开发机仅 /root 路径下的文件是持久化存储的,其他路径下安装的软件重启后都会被重置。
2025-03-01 17:43:16
676
原创 2.3. 端口映射、Linux 基础命令1
端口映射是一种网络技术,它可以将外网中的任意端口映射到内网中的相应端口,实现内网与外网之间的通信。通过端口映射,可以在外网访问内网中的服务或应用,实现跨越网络的便捷通信。那么我们使用开发机为什么要进行端口映射呢?因为在后续的课程中我们会进行模型web_demo的部署实践,那在这个过程中,很有可能遇到web ui加载不全的问题。这是因为开发机Web IDE中运行web_demo时,直接访问开发机内 http/https 服务可能会遇到代理问题,外网链接的ui资源没有被加载完全。
2025-03-01 11:46:45
614
原创 2.2.3 使用VScode进行SSH远程连接
如果你已经安装好了VScode,可以在点击左侧的扩展页面,在搜索框中输入“SSH”,第一个就是我们要安装的插件,点开它“Install”就可以了。远程连接完成以后,可以选择打开的文件夹,也可以称为工作目录,你可以选择开发机中的也可以选择本地的,开发机中的文件夹,就是我们前面提到的。当下一次进行远程连接的时候,就不需要输入登录命令等信息了,只需要打开vscode的远程连接就可以看到第一次连接的开发机信息,下面的。表示禁用严格的主机密钥检查。但是在一般的安全实践中,不建议随意禁用严格的主机密钥检查。
2025-02-28 18:53:56
239
原创 2.2.2 配置SSH密钥进行SSH远程连接(可选)
如果大家计算机的用户名是中文的,InternStudio会识别不了,这种情况就需要用密码来登录SSH,不过不影响使用,大家不用担心。但是在我们开发学习的时候,每次远程都输入密码比较麻烦,我们可以设置SSH key来跳过输入密码这一步骤,在ssh命令中我们可以使用。由于我的有中文 ,计算机的用户名是中文的,InternStudio会识别不了,这种情况就需要用密码来登录SSH。SSH密钥是一种安全便捷的登录认证方式,用于在SSH协议中进行身份验证和加密通信。就可以了,这里的密钥默认情况下是生成在。
2025-02-28 18:28:53
210
原创 书生--第1关L0G1000Linux 基础知识
SSH全称Secure Shell,中文翻译为安全外壳,它是一种网络安全协议,通过加密和认证机制实现安全的访问和文件传输等业务。SSH 协议通过对网络数据进行加密和验证,在不安全的网络环境中提供了安全的网络服务。SSH 是(C/S架构)由服务器和客户端组成,为建立安全的 SSH 通道,双方需要先建立 TCP 连接,然后协商使用的版本号和各类算法,并生成相同的会话密钥用于后续的对称加密。在完成用户认证后,双方即可建立会话进行数据交互。那在后面的实践中我们会配置SSH密钥。
2025-02-28 18:01:20
128
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人