自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(107)
  • 资源 (4)
  • 收藏
  • 关注

原创 提示词工程 - RAG

提示词工程(Prompt Engineering)的核心点是RAG(Retrieval-Augmented Generation):一种不训练/微调大模型(LLM),仅通过制作外挂“数据库”,并检索关键数据并入prompt,实现LLM生成内容增强的技术。

2025-12-22 16:34:29 731

原创 智能体开发1-智能体工具调用

互联网技术:java web智能手机技术(移动互联网):安卓系统AI人工智能:大模型-智能体这也伴随着开发语言的变迁(JAVA->Python),以及开发工具的变化(IDE -> 命令行脚本)

2025-12-18 15:07:51 634

原创 智能体交易员 - AI-Trader

续Nof1公司推出Alpha Arena交易赛后,涌现出不少基于大模型的开源交易项目,本文介绍一个质量上佳的项目:AI-Trader由香港大学-数据智能实验室开源(HKU-Data Intelligence Lab)项目主要特点如下:支持三类市场交易美股 (交易标的分别为:NASDAQ 100)A股 (交易标的分别为:A50 指数品种)加密货币 (10个主流加密货币:BTC/ETH/XRP/SOL/ADA/SUI/LINK/AVAX/LTC/DOT)调用6个大模型。

2025-12-13 16:25:35 770

原创 Llama 2 技术概览

llama2公开 7B、13B、70B;34B 模型未公开。训练流程分三步:1.预训练 Llama 2(用公开数据)2.监督微调(SFT) 得到 Llama 2-Chat 初始版本3.RLHF 多轮迭代优化(拒绝采样 + PPO),RLHF 过程中 不断更新奖励模型,确保其与模型能力保持一致。

2025-11-27 00:00:28 1048

原创 AI量化交易 - Alpha Arena 第1.5季

公司核心领域产品/业务特点NDX(纳斯达克100)指数科技股为主、含AAPL/MSFT/NVDA等代表大型科技股整体趋势TSLA(特斯拉)电动车 & 能源EV、FSD、储能创新快、波动大NVDA(英伟达)AI 芯片CUDA、GPU(H100 等)AI 基础设施之王MSFT(微软)操作系统 & 云 & AI稳健增长、OpenAI 投资人AMZN(亚马逊)电商 & 云电商、AWS全球物流和云巨头GOOGL(谷歌)搜索 & AI广告主导、AI 实力强。

2025-11-23 22:32:23 139

原创 AI量化交易 - Alpha Arena 第1季

AI量化交易实验:大模型在加密货币市场的真实表现. 北美Nof1公司开展的Alpha Arena第1季实验,让6个大语言模型(包括GPT-5、Gemini 2.5 Pro等)在真实加密货币市场进行自主交易,每个模型分配1万美元资金。实验发现不同模型展现出显著差异的交易行为和风险偏好,对市场信号变化极为敏感。虽然部分模型一度取得较高收益,但最终大多回撤至成本线附近,表明当前大模型处理金融时间序列数据的能力仍有限。

2025-11-21 12:38:17 180

原创 GPT-1-极简全栈实现

本文是用于教学的精简版GPT-1 (低配版GPT-2),涵盖数据预处理、模型训练、推理等LLM基础技术实现全文结构如下:为简化内容,本文仅保留上述章节的可视化部分,读者可通过github代码调试项目全部流程。

2025-11-19 21:06:10 742 1

原创 GPT-0: Attention+Transformer+可视化

本文介绍GPT组件: Attention+Transformer,及其可视化原文 《Visualizing Attention in Transformer-Based Language Representation Models》, 2019。

2025-10-30 20:48:57 965

原创 GPT-3 技术报告

早期: 静态词向量(Word2Vec, GloVe 等) → 输入到任务专用架构。中期: RNN + 上下文表示,效果更强,但依旧要任务专用架构。近期: 预训练Transformer / LM → 在下游任务上 微调,完全去掉任务专用架构。Fine-Tuning (FT) - 微调机制: 使用带标签的监督数据集来更新预训练模型参数。数据量: 根据模型参数规模而定,通常需要数百到数万的带标签数据。优点: 在大多数基准测试上能取得最优性能(State-of-the-Art)。

2025-10-29 22:28:39 1002

原创 GPT-2 技术报告2

Lead-3: 直接取新闻原文的前 3 句作为摘要。在许多新闻类数据集(例如 CNN/DailyMail, Newsroom, XSum)中,记者写作的新闻报道往往在开头几句就概括了主要事实与要点(即“倒金字塔结构”)。Lead-3 往往能在不学习的情况下得到非常强的 ROUGE 分数;成为评估 自动摘要模型是否真的“理解”语义 的强基线。ODQA(Open-domain Question Answering) :一种问答系统任务,要求模型在没有固定上下文的情况下回答。

2025-10-29 21:30:41 723

原创 GPT-1 技术报告

Transformer架构优势明显:能处理长程依赖,提高迁移性能,优于LSTM。其有以下两点趋势:生成式(generative):预测文本序列,用无标签数据预训练。判别式(discriminative):直接预测标签,需要标注数据,用于微调。生成式预训练 (Pre-train)+ 判别式微调(Fine-tuning)是NLP任务的有效策略,可充分利用大量无标签文本。

2025-10-26 16:44:03 880

原创 GPT-2 技术报告

传统方法局限以往的 NLP 任务依赖于有监督学习和特定任务数据集。仅针对单一任务,模型的泛化和跨任务能力有限。NLP 任务如:问答(QA)、机器翻译、阅读理解、摘要生成等。GPT-2 的核心发现若在大规模通用语料(如 WebText)上预训练语言模型,它会自然地学会完成多种nlp任务,即使没有显式监督信号。模型容量与任务迁移效果呈 log-linear 增长规律,说明更大的模型更善于 zero-shot 学习。

2025-10-15 15:19:42 656

原创 视觉大模型:Qwen-VL 技术报告解读

Image Captioning:给定一张图片,生成英文描述。General VQA(视觉问答):给定图片+问题,生成答案。Text-oriented VQA:回答图像中与<文本相关>的问题,如识别图表、文档、书本或海报上的文字。

2025-09-23 22:10:45 888

原创 NLTK库: 数据集3-分类与标注语料(Categorized and Tagged Corpora)

用于主观性分析的数据集,这个语料库由 5000 条主观句子(subjective)和 5000 条客观句子(objective)组成,专门用于情感分析和主观性分类任务。来源于 Bo Pang 和 Lillian Lee 的研论文《A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts》(ACL 2004)。

2025-05-13 21:37:07 1466

原创 NV-Link 测试(可用性与速率,PCIE+SXM)

多种方法测试nvlink状态与速率,确保nvlink正常工作

2025-05-09 11:44:12 2146

原创 NLTK库: 数据集2-词汇资源(Lexical Resources)

类方法definition()获取一个包含20万多个标准英文单词的列表,用于英文处理、拼写检查、自然语言理解等任务(236736个词)。

2025-05-09 01:13:42 964

原创 NLTK库(1): 数据集-语料库(Corpus)

NLTK (Natural Language Toolkit) 是自然语言处理(NLP)任务的 Python 库,内置大量NLP数据集与计算包。NLP数据集也叫语料库 (Corpus), 若无特殊格式或标记,数据集通常来自txt等文本文件。本教程内容适用版本:涵盖NLP基本操作和大量语料(英文为主):这里以小说nltk.corpus.gutenberg的圣经(‘bible-kjv.txt’)为例:nltk.corpus 模块中包含了多种类型的语料库,可大致分为以下几类:用于自然语言处理中的分词、句法、语义、

2025-05-06 17:57:19 1323

原创 论文研读: LLaVA-Med, 用一天时间微调7B大模型,输出医学影像诊断

通用领域的大规模视觉-语言模型(VLM)虽能处理日常图文,但在医学影像场景下往往缺乏专业性。现有医学视觉问答(VQA)大多将问题视为分类任务,无法满足“开放式”对话需求。因此,通过LLM微调的生物医学聊天机器人(Biomedical Chatbots)具备研究价值。LLaVA‑Med 的创新不在于改造模型,而是通过设计微调数据集,让7B的LLM具备医学问答与对话水平。利用低剂量 X 光透过人体,依组织密度在底片上形成衬度差异。骨骼高度吸收显白,肺野低密度显暗。

2025-04-21 17:23:22 1464

原创 论文研读: LLaVA, 微调大模型以理解图像内容

LLaVA是视觉大模型,涉及主流大模型微调方法,包括:通过超大参数模型(GPT-4)生成<微调数据>(这里是图文跨模态数据)两阶段微调大模型(原文为Vicuna-7B,即llama2,相比GPT-4约小10倍)第一阶段实现<视觉-语言特征对齐>第二阶段将<图像融合进上下文>两阶段微调对应不同的 <数据集> 及 <微调数据结构>微调《数据集》来自通用大模型 (比如ChatGPT的格式化输出)。微调《中小规模的参数模型》 3B / 7B / 35B 以适配下游任务。

2025-04-17 15:23:55 1296

原创 生成模型:流模型-Normalizing Flows

本文主要介绍主流的3类流模型它们基本思路是一致的,仅随发表时间有所改进。本例以学习的思路讲述流模型生成图像(MNIST)。流模型经典的应用是音频合成模型VITS其实现了《文本转语音/声音克隆》, 感兴趣的可以参看:以图像生成为例,其像素(pixels)是一种复杂的多维变量分布,其概率密度难以求解。生成模型的核心思想是:通过神经网络,将图像数据的分布与多维标准正态分布建立映射.实现通过标准正态采样,生成所映射的图像数据。概率密度 p(x) 表示在 x 附近每单位“测度”(比如单位长度、单位面积等)内的概率“浓

2025-02-20 11:09:18 1854

原创 生成模型:扩散模型(DDPM, DDIM, 条件生成)

扩散模型的理论较为复杂,论文公式与开源代码都难以理解。现有的教程大多侧重推导公式。为此,本文通过精简代码(约300行),从代码运行角度讲解扩散模型。

2025-01-30 00:02:05 5109

原创 生成模型:生成对抗网络-GAN

GAN的生成原理依赖于生成器和判别器的博弈这种独特的机制使GAN在图像生成、文本生成等领域表现出色。具有表现为:生成器 (Generator, G)生成器的目标是从一个随机噪声(通常是服从某种分布的向量,例如高斯分布或均匀分布)中生成与真实数据分布尽可能相似的样本。判别器 (Discriminator, D)判别器的目标是区分真实数据(来自真实数据分布)和生成器生成的数据,以分类器的形式输出一个概率值。

2025-01-17 16:17:30 1694

原创 生成模型:变分自编码器-VAE

导入必要的库编码器:将输入数据映射为潜在变量 z 的均值μ\muμ和方差σ2\sigma^2σ2解码器:从潜在变量 z 重构原始数据# 编码器nn.ReLU(),nn.ReLU()self.fc_mu = nn.Linear(256, latent_dim) # 均值self.fc_logvar = nn.Linear(256, latent_dim) # 对数方差# 解码器nn.ReLU(),nn.ReLU(),

2025-01-08 23:40:06 1180

原创 论文研读:Text2Video-Zero 无需微调,仅改动<文生图模型>推理函数实现文生视频(Arxiv 2023-03-23)

通过潜空间插值, 实现动作连续帧。以第一帧为锚定,替换原模型的self-attention,改为cross-attention实现 保证图片整体场景不变的同时,生成具备运动信息的连续帧。

2024-12-31 17:17:22 1973

原创 论文研读:Tune-a-video — 微调学习单个视频内的物体动作(Arxiv: 2023-03-17)

这里主要分析了文生图模型, 即text-to-image model, T2I model可根据文本<名词>和<动词>生成语义<图像>的能力能聚焦同一目标, 但无时间连续性T2V model图像仅具有空间特征(spatial features),因此:只有spatio-temporal是不够的,时间的先后顺序,即连续性存在问题,为了改进这个问题:将时序特征通过DDIM加噪(inversion)的方式,嵌入latent 特征,以保证特征去噪后具有更好的时间连续性。

2024-12-31 15:07:05 1279

原创 论文研读:AnimateDiff—通过微调SD,用图片生成动画(Arxiv:2024-02-08)

AnimateDiff 设计了3个模块来微调通用的文生图Stable Diffusion预训练模型, 以较低的消耗实现图片到动画生成。论文名:AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning三大模块:视频域适应模块(Domain-Adapter):即让SD时应生成视频相关的内容动作学习模块(Motion-Module): 让SD从文生图的特征中,再学习序列特征。

2024-12-26 23:58:34 918

原创 AIGC研究回顾3—CV类微调方法—Textual Inversion(TI)

a. GAN Inversion直接通过真实图像优化潜向量V,让V重构真实图像。b. 与GAN不同,sd模型基于文生图,因此inversion处理在<文本映射>这一步:- 先由tokenizer将text映射为tokens(类似查字典的<字符>转<离散型向量>过程),- 之后再通过embedding layer将tokes映射为表征向量V(<离散型向量>映射为<连续型向量>)。

2024-12-19 18:23:56 613

原创 AIGC研究回顾2—CV类微调方法—DreamBooth

全参微调sd模型(用文生图方式),文中对目标(Object)用特殊的标记(Rare-token Identifiers)限定,让微调后的模型能识别这个标记以生成对应的目标。图中黄色部分的模型即需要微调的模型,精简理解如下:微调前可以把右侧下方的看成预训练的sd(微调前), 这时,’A dog’生成各类狗。微调过程。

2024-12-19 17:43:11 726

原创 AIGC研究回顾1—CV类(FreeU + ControlNet)

AI技术核心是数据驱动(Data-Driven),可分为两条主线:数据模型AIGC模型即生成模型,基本是自编码器的结构,即模型包含两个部分,编码器和解码器可以概述为5类。

2024-12-18 00:19:19 654

原创 ubuntu服务器木马类挖矿程序排查、及安全管理总结

如果只是简单的病毒,删除PID运行的文件即可进一步的就是定时启动程序,及开机启动程序(守护进程-daemon, 也叫系统服务,是指在后台运行且不直接与用户交互的进程)最后就是排查日志,另外做好权限管理,账户的密码尽量复杂一些,跑程序的普通用户不需要给。

2024-12-13 01:43:32 2044

原创 ubuntu24.04—nvlink未激活: 报错排查与解决

由于ubuntu24.04与windows驱动不同,未集成nvlink驱动,且nvlink的驱动fabricmanager版本可能和显卡驱动本身不同,就无法激活nvlink:用 nvidia-smi nvlink -s会发现未激活。

2024-12-13 00:41:08 2805

原创 GPT-Sovits-2-微调模型

上一步整理完数据集后,此步输入数据, 微调2个模型VITS和GPT,位置在 下的这一步微调VITS的预训练模型,即微调SynthesizerTrn模型这一步微调GPT的预训练模型,这里采用的是google的soundstorm复现模型结构文件在:’ ./GPT_SoVITS/AR/models/t2s_model.py’注意,两个模型微调是独立的, 可分别完成。

2024-10-29 17:53:54 2153

原创 GPT-Sovits-1-数据处理

将音频切割为多个10s内的片段。

2024-10-29 17:51:34 912

原创 显卡 3090 vs v100

【代码】显卡 3090 vs v100。

2024-10-09 23:35:57 8236

原创 VITS源码解读6-训练&推理

VITS到这里就告于段落了, 后面的VITS2改进了VITS的dp模型(flow变gan),在cosvoice等模型里面也能见到VITS的主干网络。因此, VITS是音频tts和vc、sc的核心技术。

2024-09-28 11:47:41 834 2

原创 VITS源码解读5-commons.py

该文件包含多种通用向量运算函数,部分比较抽象, 共18个函数。

2024-09-27 00:31:54 1154

原创 VITS源码解读4-辅助文件

本节介绍多个文件:频谱 spectrogram 转换为 mel_spectrogram 的操作函数losses.py训练模型用到的损失函数utils.py一个工具包,包含项目运行所需的辅助类或函数commons.py包含训练网络时对数据处理函数(暂略)

2024-09-27 00:30:29 993

原创 VITS源码解析3-SynthesizerTrn

neg_cent2, neg_cent3, neg_cent4: 这些项结合了模型生成的潜在变量 z_p 和高斯分布的均值 m_p,并通过加权求和的方式编码了目标序列与源序列的匹配程度。仅用于训练,将x_mask和y_mask计算得到attn_mask,将logs_p和m_p (来自 enc_p) 与z_flow (enc_q)计算得到的neg_cent。neg_cent 是一个成本矩阵,它的每一行代表目标序列中的位置(音频),每一列代表源序列中的位置(文本),动态规划帮助我们找到最优的映射。

2024-09-18 16:36:46 1400

原创 音频评价指标

第一个是主观评价指标,后面几个是客观评价指标。

2024-09-14 17:14:21 3981

原创 VITS源码解析2-模型概述

模型部分包含三个文件注意机制就是transformer,在文本编码器中用到了,transformer的encoder。modules.py这个包含模型的一些基础结构(blocks), 比如Norm, Conv, Resblock等models.py这个是VITS核心的模型结构,前两个文件只是其基础。

2024-09-14 15:49:27 1510 2

LSUN数据集(包括论文和kitchen子集)

类似ImageNet的大规模数据集,相对ImageNet,LSUN分类更丰富,不仅有物品分类,也要场景分类,下载文件内附百度云盘提取码。

2020-04-27

macTex.txt

mactex,总大小约4G(txt中附百度云提取码)。可用于mac系统下的latex编写。各种论文格式包全覆盖。小伙伴可以下载。

2020-04-27

LSUN数据集(bedroom子集)

LSUN数据集(bedroom),文件中包含百度网盘提取码。LSUN是一个比较有特色的大规模数据集,相对ImageNet而言,分类更丰富,不仅有物体分类,还有场景分类。

2020-04-27

LSUN数据集(dining_room子集)

类似ImageNet的大规模数据集,相对ImageNet,LSUN分类更丰富,不仅有物品分类,也要场景分类,下载文件内附百度云盘提取码。

2020-04-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除