- 博客(148)
- 收藏
- 关注
原创 这款知识库神器,0配置秒上手,还能显示图片和表格!
DeepSeekMine是一款本地化智能知识库工具,提供即装即用的便捷体验。相比竞品,它支持完整文档解析(包括表格、图片、公式),并具备图片理解输出能力,回答准确率行业领先。V2.2.1版本新增引用跳转、图片展示、Ollama视觉模型接入等功能,改进文档解析引擎和检索算法,支持最高256K上下文长度。未来将开发智能问答分类、微信登录和问题改写等功能,持续优化知识管理体验。所有数据本地存储,保障隐私安全。
2025-11-18 10:49:59
918
原创 YouTube评论情感分析项目84%正确率:基于BERT的实战复现与原理解析
本文介绍了一个基于BERT预训练模型的YouTube评论情感分类项目。项目采用bert-base-uncased模型,通过文本分词、BERT嵌入和全连接层实现三分类(积极/消极/中性)。关键技术包括数据处理、标签编码、加权随机采样以及模型训练评估流程。实验结果显示验证集准确率达84%,F1分数0.81,其中积极评论识别效果最佳。项目提供完整的代码实现和复现指南,支持GPU加速和API服务化部署,适用于社交媒体舆情分析等场景。中文任务可替换为中文BERT模型,保持相同技术流程。
2025-10-25 14:45:36
756
2
原创 真假新闻分类项目99%正确率全流程详解(附原理/代码/部署)
本项目基于4.5万条新闻数据,采用深度学习技术构建了一个高精度的假新闻检测系统。通过双向LSTM模型结合GloVe预训练词向量,实现了99.88%的测试准确率。系统包含完整的文本预处理流程(小写转换、去停用词等)、词向量嵌入层和深度学习模型架构。项目提供了详细的环境配置指南、代码实现和可视化结果,便于复现和部署。该方案验证了NLP技术在虚假信息识别中的有效性,建议进一步扩展数据集以验证模型泛化能力。
2025-10-25 14:35:39
755
原创 DeepSeek-OCR:开创视觉-文本压缩新纪元的端到端OCR模型
DeepSeek-OCR:视觉压缩长文本的革命性突破 DeepSeek-OCR是DeepSeek-AI提出的创新性视觉-语言模型,通过光学二维映射实现长文本的高效压缩。该模型采用独特的DeepEncoder(380M参数)和DeepSeek-3B-MoE解码器架构,能够将1024×1024图像压缩为256个视觉token,实现10倍压缩比下97%的文本还原精度。 核心创新包括: 三段式DeepEncoder设计,结合SAM-base和CLIP-large模块 支持多分辨率输入(512×512至1280×12
2025-10-22 15:26:41
869
原创 deepseekmine2.2.0发布,本地知识库,秒级上传与检索文件,免费试用
DeepSeekMine 2.2.0版本带来多项优化:界面适配暗黑/浅色模式;检索算法升级,精准问答情况下(问题详细且不模糊)正确率达75%-80%;百万字文件上传速度提升至1秒内;修复API调用问题,支持7家供应商;新增OCR图片识别、密码找回、翻译智能体功能;优化笔记编辑体验;支持自定义知识库存储位置;针对qwen3模型进行专项优化,8GB显存下性能接近满血大模型。下载地址:https://deepseekmine.com/download。
2025-10-12 19:18:13
355
原创 【大模型LLM面试合集】有监督微调_lora
LoRA系列方法通过低秩分解实现大模型高效微调。LoRA利用降维矩阵模拟参数更新,显著减少参数量;AdaLoRA动态分配参数预算,基于重要性评分调整矩阵秩;QLoRA结合4bit量化与适配器微调,在保证性能的同时降低显存消耗。实验表明,这些方法在不同任务中均能媲美全量微调效果,且QLoRA首次实现4bit量化下的无损微调。这些技术为大规模语言模型的高效适配提供了实用解决方案。
2025-09-30 19:00:19
1087
原创 【大模型LLM面试合集】有监督微调_adapter-tuning
大模型参数高效微调技术:Adapter Tuning及其变体 本文综述了Adapter Tuning及其几种改进变体,这些技术旨在解决大模型全量微调的高计算成本问题。核心方法是在预训练模型的Transformer层中插入少量任务特定参数(Adapter模块),仅微调这些新增参数而非整个模型。主要变体包括: AdapterFusion:通过两阶段学习(知识提取+组合)实现多任务知识融合 AdapterDrop:动态移除低层Adapter以提升推理效率(最高提速39%) MAM Adapter:统一框架揭示不同
2025-09-30 18:54:28
1006
原创 【大模型LLM面试合集】有监督微调_预训练
摘要 增量预训练是将领域知识注入大模型的有效方法,其流程包括:选择底座模型、收集TB级数据并进行清洗、选用合适训练框架(3D并行/张量并行/LoRA)、确定数据混合策略。训练时需处理数据至统一长度、调整分词器和模型层名,最后进行模型转换和基础测试。关键是通过高质量数据提升信息密度,优化模型学习效率。
2025-09-29 10:49:39
415
原创 【大模型LLM面试合集】有监督微调_prompting
本文介绍了四种高效微调预训练语言模型的方法:BitFit、Prefix Tuning、Prompt Tuning和P-Tuning。BitFit通过仅更新模型中的bias参数实现微调,参数量仅占0.08%-0.09%,效果接近全量微调;Prefix Tuning为不同任务添加可训练的前缀参数,在生成任务中表现优异;Prompt Tuning简化了Prefix Tuning,仅在输入层添加可学习的prompt tokens;P-Tuning将离散prompt转化为可微的embedding层,通过MLP+LST
2025-09-24 21:05:54
771
原创 【大模型LLM面试合集】有监督微调_微调
本文系统梳理大模型微调关键问题,涵盖显存估算、灾难性遗忘、数据构建、领域适配及训练优化等20个核心议题,为高效、稳定地开展全参数微调与指令微调提供实践指南
2025-09-24 20:56:05
796
原创 Qwen3、GPT和DeepSeek接入个人电脑知识库,回答速度飞快,确实太实用了!
DeepSeekMine是一款本地化知识库管理软件,支持一键安装多种开源大模型(如DeepSeek、Qwen3等)
2025-09-12 15:28:44
340
原创 DeepSeekMine个人本地知识库,一般电脑也能飞速跑,确实逆天了
DeepSeekMine迎来V2.1.7版本重大更新,支持官网直下载。主要升级包括:本地模型响应速度提升15%-40%,远程模型实现3秒内快速响应;新增Doc文档读取功能,优化多轮对话连贯性;改进中英文混合检索准确性及输出样式。特别推出内置Ollama安装包的一键下载功能,并修复多项bug。Mac用户若遇安装问题,可通过终端命令解决。开发者邀请用户通过反馈表单提交使用建议。关注官方直播间可获取更多使用技巧。
2025-08-29 10:45:00
692
原创 一键搭建本地AI知识库!DeepSeekMine轻量级RAG方案发布,Windows/Mac免费用!
告别向量数据库!个人/企业文档安全处理,本地大模型驱动,轻量飞速,完全免费!
2025-07-08 12:35:20
1724
原创 DeepSeekMine个人知识库,可吞下20G文件,初版Windows和Mac安装包发布!
DeepSeekMine是我们团队开发的一款本地知识库管理软件,历时近四个月,现已推出支持Windows、Mac和Linux的Docker版本,实现一键安装。软件支持完全本地运行,具备高效的RAG查询生成能力,可处理数十至数百GB本地文件。用户只需安装Docker并部署DeepSeekMine镜像,即可通过浏览器访问localhost:3000使用。支持文件/文件夹上传、快速加载、多轮对话及多模型配置,提升响应准确性。DeepSeekMine初次发布免费使用,适合有本地知识管理需求的用户
2025-05-16 22:48:18
1671
原创 【大模型LLM面试合集】有监督微调_微调
通常,大型模型和较大的批次大小可能需要较大的显存容量。建议在进行微调之前评估和测试所用计算平台的显存容量,并根据实际情况进行调整。
2025-03-14 14:17:02
1201
原创 【大模型LLM面试合集】有监督微调_基本概念
这样,模型就可以适应新的任务,计算开销更少,标记的例子也更少。尽管PEFT是一个相对较新的概念,但自从引入迁移学习以来,更新最后一层模型已经在计算机视觉领域得到了实践。即使在NLP中,静态和非静态词嵌入的实验也很早就进行了。参数高效微调旨在提高预训练模型(如BERT和RoBERTa)在各种下游任务上的性能,包括情感分析、命名实体识别和问答。它在数据和计算资源有限的低资源设置中实现了这一点。它只修改模型参数的一小部分,并且不容易过度拟合。参数高效的微调。
2025-03-14 14:14:39
875
原创 【大模型LLM面试合集】分布式训练_总结
数据并行,由于其原理相对比较简单,是目前使用最广泛的分布式并行技术。。我们首先以PyTorch 数据并行的发展(DataParallel、DistributedDataParallel、FullyShardedDataParallel)为主线进行讲述了数据并行的技术原理。同时,也简述了 DeepSpeed 中的增强版数据并行ZeRO。
2025-03-13 10:29:57
1002
原创 【大模型LLM面试合集】分布式训练_moe并行
本文简要介绍了目前业界的一些 MOE 并行方案。如果说Transformer结构使得模型突破到上亿参数量,那么稀疏 MoE 结构可以在不显著增加计算成本的情况下,使模型参数量进一步突破,达到上千亿、万亿规模。虽然,1990年左右 MOE 的概念就已经出现了;但是可以预见,MOE 将在通往AGI的道路上扮演越来越重要的角色。
2025-03-13 10:26:22
1372
原创 【大模型LLM面试合集】分布式训练_多维度混合并行
本文主要讲解了常见的大模型分布式并行技术的组合策略,同时,也讲述了目前业界的一些大模型所使用的并行策略,具体如下表所示。模型DPTPPPZeRO StageGPUsFP16/BF16Bloom-176B8412ZeRO-1384 张 A100 80GBBF161928ZeRO-21,536 张 Ascend 910 32GBFP16GLM-130B2448ZeRO-1768 张 A100 40GFP16OPT-175B1248✅。
2025-03-02 10:00:00
687
原创 【大模型LLM面试合集】分布式训练_自动并行
本文介绍了自动并行技术在深度学习中的应用,旨在简化分布式并行策略选择,分全自动与半自动两种模式。Mesh-TensorFlow通过给张量各维命名,将设备视为矩阵,实现任意维度分割,但需重写模型且不支持自动搜索最优布局;GSPMD采用张量分片注解,在XLA基础上统一实现多种并行策略;FlexFlow构建SOAP搜索空间,通过执行模拟器评估策略性能并自动选优;Alpa则融合算子内外并行,利用动态规划和整数规划划分流水线与细化分片,成为自动并行的集大成者。
2025-03-02 10:00:00
865
原创 【大模型LLM面试合集】分布式训练_张量并行
本文主要针对 Megatron-LM 和 Colossal-AI 的张量并行方案进行了讲解。其中,Megatron-LM 提出了一种高效的一维(1D)张量并行化实现。这种方法虽然将参数划分到多个处理器上,但每个处理器仍需要存储整个中间激活,在处理大模型时会消耗大量的显存空间。此外,由于仅采用1维矩阵划分,在每次计算中,每个处理器都需要与其他所有处理器进行通信;因此,通信成本会随并行度增高而激增。显然,1维张量并行已无法满足当前超大AI模型的需求。
2025-03-01 10:00:00
1816
原创 【大模型LLM面试合集】分布式训练_序列并行
总的来说,Colossal-AI 的序列并行是为了打破单设备上序列长度的限制。而 Megatron-LM 的序列并行是在显存上面下了功夫,可以用更少的设备去运行大模型。除此之外,从文章细节里面可以看到,部分的计算的冗余被消除了,且重叠了一部分的通信,使得设备可以花更多的时间用于计算上面。虽然,Colossal-AI 和 Megatron-LM 都有序列并行,但是两者解决的问题、方法都不一样。除此之外,在Pytorch中,也已经支持序列并行了。
2025-03-01 10:00:00
1755
原创 【大模型LLM面试合集】分布式训练_流水线并行
所谓流水线并行,就是由于模型太大,无法将整个模型放置到单张GPU卡中;因此,将模型的不同层放置到不同的计算设备,降低单个计算设备的显存消耗,从而实现超大规模模型训练。如下图所示,模型共包含四个模型层(如:Transformer层),被切分为三个部分,分别放置到三个不同的计算设备。即第 1 层放置到设备 0,第 2 层和第三 3 层放置到设备 1,第 4 层放置到设备 2。相邻设备间通过通信链路传输数据。
2025-02-07 09:00:00
1794
原创 【大模型LLM面试合集】分布式训练_显存问题
大模型也分为,一般模型的规格会体现在模型的名称上,例如 LLaMA2-13b,13b 就是其模型参数量的大小,意思是 130亿的参数量。大模型的文件大小与其参数量有关,通常大模型是以半精度存储的, Xb 的模型文件大概是 2X GB多一些,例如 13b 的模型文件大小大约是 27GB 左右。
2025-02-06 09:00:00
535
原创 【大模型LLM面试合集】分布式训练_数据并行
本文主要讲解了大模型分布式训练并行技术的数据并行,并以Pytorch为主线讲解了DP、DDP、FSDP三种不同的数据并行方案。单进程多线程模式,由于锁的机制导致线程间同步存在瓶颈。使用普通的All-Reduce机制,所有的卡需要将梯度同步给0号节点,并由0号节点平均梯度后反向传播,再分发给所有其他节点,意味着0号节点负载很重。由于第二点的原因,导致0号GPU通讯成本是随着GPU数量的上升而线性上升的。不支持多机多卡。目前,由于性能问题,DP基本不用了。
2025-02-06 09:00:00
952
原创 【大模型LLM面试合集】分布式训练_概述
数据并行是最常见的并行形式,因为它很简单。在数据并行训练中,数据集被分割成几个碎片,每个碎片被分配到一个设备上。这相当于。每个设备将持有一个完整的模型副本,并在分配的数据集碎片上进行训练。在反向传播之后,模型的梯度将被全部减少,以便在不同设备上的模型参数能够保持同步。典型的数据并行实现:PyTorch DDP。
2025-02-05 17:02:00
1080
原创 【大模型LLM面试合集】训练数据_数据格式
在这个示例中,(1代表正例,0代表负例)。每一行代表一个样本,第一列是输入数据,第二列是对应的标签。需要注意的是,具体的数据集格式可能会因任务类型、数据来源和使用的深度学习框架而有所不同。因此,在进行SFT训练时,建议根据具体任务和框架的要求来定义和处理数据集格式。
2025-02-05 16:52:50
1513
原创 【大模型LLM面试合集】大语言模型架构_解码策略(Top-k & Top-p & Temperatu)
在大模型训练好之后,如何对训练好的模型进行解码(decode)是一个火热的研究话题。一般给模型传入的解码参数如下所示。在自然语言任务中,通常使用一个预训练的大模型(比如GPT)来根据给定的输入文本(比如一个开头或一个问题)生成输出文本(比如一个答案或一个结尾)。为了生成输出文本,需要让模型逐个预测每个 token ,直到达到一个终止条件(如一个标点符号或一个最大长度)。在每一步,模型会给出一个概率分布,表示它对下一个单词的预测。
2025-02-05 16:48:41
894
原创 【大模型LLM面试合集】大语言模型架构_Transformer架构细节
训练上的意义:随着词嵌⼊维度d_k的增⼤, q * k 点积后的结果也会增⼤, 在训练时会将 softmax函数推入梯度⾮常⼩的区域, 可能出现梯度消失的现象, 造成模型收敛困难.数学上的意义: 假设q和k的统计变量是满⾜标准正态分布的独⽴随机变量, 意味着q和k满⾜均 值为0, ⽅差为1。** 那么q和k的点积结果就是均值为0, ⽅差为**dkd_kdk, 为了抵消这种⽅差被放⼤dkd_kdk** 倍的影响, 在计算中主动将点积缩放**1dkdk1。
2025-02-05 16:44:52
1114
原创 「GAN 在 CIFAR-100 上的高质量图像生成:完整可复现代码与卓越实验成果」
生成对抗网络(GAN)是一种强大的深度学习框架,由两部分组成:生成器和判别器。生成器负责生成尽可能真实的图像,而判别器的任务是判断这些图像是否真实。在训练过程中,生成器和判别器通过博弈来提升各自的能力,最终达到生成器能够生成高质量图像的效果。在本实验中,我选择了。
2025-02-02 09:00:00
934
原创 用 Wide-ResNet 打出 79% 准确率!完整源码公开,一文带你复现 CIFAR-100 分类实验
ResNet(Residual Network)最早由微软研究院提出,通过使用残差结构(Residual Block)有效缓解了深度神经网络中出现的梯度消失或梯度爆炸等问题。同时,残差结构也让网络能在保持较深层数的同时依旧有良好的训练效果。是对 ResNet 的改进版本,论文提出可以在增加网络宽度(即 channel 数)而不是盲目加深网络深度的情况下,获得更强的表达能力和更好的性能表现。相比于很深的 ResNet,Wide-ResNet 通常能在较少的训练时间内取得相当甚至更高的准确率。
2025-02-02 09:00:00
2505
原创 【大模型LLM面试合集】大语言模型架构_MHA_MQA_GQA
GQA-N 是指具有 N 组的 Grouped Query Attention。GQA-1具有单个组,因此具有单个Key 和 Value,等效于MQA。而GQA-H具有与头数相等的组,等效于MHA。GQA介于MHA和MQA之间。GQA 综合 MHA 和 MQA ,既不损失太多性能,又能利用 MQA 的推理加速。不是所有 Q 头共享一组 KV,而是分组一定头数 Q 共享一组 KV,比如上图中就是两组 Q 共享一组 KV。
2025-02-01 20:35:33
1409
原创 【大模型LLM面试合集】大语言模型架构_llama系列模型
Alpaca是在LLaMA基础上使用52K指令数据精调的预训练模型,作者只用了不到600美元的成本训练出了该模型(数据$500 + 机器$100)。初步实验结果表明Alpaca可以达到与OpenAI text-davinci-003相匹敌的效果2023年7月,Meta推出了Llama-2开源大模型,并且推出了Llama-2-Chat对话模型与一代LLaMA主要区别体现在更多的训练数据、更⻓的上下文窗口、GQA技术等模型结构的变动主要是体现在GQA和FFN缩放上MHA改成GQA:整体参数量会有减少。
2025-02-01 20:27:10
1377
原创 【大模型LLM面试合集】大语言模型架构_llama 2代码详解
LLM(Large Language Model)应该是今年深度学习领域一项具有革命性的技术突破,因为ChatGPT3.5/4没有开源,所以本文选择Meta AI半开源的LLM 模型。
2024-11-06 09:00:00
1119
原创 【大模型LLM面试合集】大语言模型架构_llama3
Meta LLaMA3 强势发布,迄今为止功能最强大的公开可用的 LLM。此版本是在 15 万亿个 Token 上预训练的语言模型,具有 8B 和 70B 两种参数规模,可以支持广泛的用户场景,在各种行业基准上取得了最先进的性能,并提供一些了新功能,包括改进的推理能力,这些都是同时期最好的开源模型。除此之外,LLaMA3还有400B参数的模型正在训练中。
2024-11-06 09:00:00
938
原创 【大模型LLM面试合集】大语言模型架构_bert细节
当输入信息的维度 d 比较高,点积模型的值通常有比较大方差,从而导致 softmax函数的梯度会比较小。因此,缩放点积模型可以较好地解决这一问题。常用的Attention机制为加性模型和点积模型,理论上加性模型和点积模型的复杂度差不多,但是点积模型在实现上可以更好地利用矩阵乘积,从而计算效率更高(实际上,随着维度d的增大,加性模型会明显好于点积模型)。
2024-11-05 09:00:00
1115
原创 【大模型LLM面试合集】大语言模型架构_chatglm系列模型
三种预训练框架各有利弊,没有一种框架在以下三种领域的表现最佳:自然语言理解(NLU)、无条件生成以及条件生成。T5曾经尝试使用MTL的方式统一上述框架,然而自编码和自回归目标天然存在差异,简单的融合自然无法继承各个框架的优点。在这个天下三分的僵持局面下,GLM诞生了。。
2024-11-05 09:00:00
999
原创 【大模型LLM面试合集】大语言模型架构_token及模型参数
根据前面的实验我们知道,如果在tokens数量一定的数据集上做多epochs的模型训练,会影响模型的性能,降低模型的效果。这在预训练和下游任务都会产生影响。但是,随着模型的发展,高质量数据集的tokens数将很快用完。而采用正则技术虽然会影响模型训练效率,但是会降低这种影响。
2024-11-04 09:00:00
1197
原创 【大模型LLM面试合集】大语言模型架构_bert变种
原论文链接:RoBERTa 的全称是 Robustly optimized BERT approach。RoBERTa 是在 bert 的基础上做了一些改进,这些改进并不是设计什么新颖的结构,而是尽量使模型得到更充分的预训练,释放 bert 模型的潜力。另外还有一个是。做了上述改进之后,指标有所提升。
2024-11-04 09:00:00
1275
原创 【大模型LLM面试合集】大语言模型架构_激活函数
GeLU(Gaussian Error Linear Unit)是一种激活函数,常用于神经网络中的非线性变换。它在Transformer模型中广泛应用于FFN(Feed-Forward Network)块。下面是GeLU的计算公式:GeLUx0.5×x×1tanh2π×x0.044715×x3GeLUx0.5×x×1tanhπ2×x0.044715×x3)))其中,tanh()是双曲正切函数,sqrt()
2024-11-03 02:20:37
1077
二手交易网站(完整源码可运行).rar
2025-02-01
「CIFAR-100 分类实战:从 ResNet 到 Wide-ResNet,一文分享我的开源代码与经验」
2025-02-01
利用生成对抗网络(GAN)进行CIFAR-100图像生成:实验与结果分享
2025-02-01
某闯关类手游用户流失预测(数据集+代码+报告)
2024-07-07
基于回归分析的大学综合得分预测(数据集+代码+报告)
2024-07-07
AAAI 会议论文聚类分析(数据集+代码+报告)
2024-07-07
基于集成学习的 Amazon 用户评论质量预测 (数据集+代码+报告)
2024-07-07
基于决策树的英雄联盟游戏胜负预测(数据+代码+报告包含)
2024-07-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅