自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 私有化部署dify + DeepSeek-R1-Distill-Qwen-32B + bge-m3

Dify是一款开源的大语言模型(LLM)应用开发平台。对数百个模型的支持、直观的Prompt编排界面、高质量的RAG引擎、稳健的Agent框架、灵活的流程编排。在linux环境中使用docker部署dify,vllm部署DeepSeek-R1,ollama部署bge-m3。unexpected character "%" in variable name near "%H:%M:%S\n。Not supported URL scheme http+docker。

2025-03-29 14:50:00 1066

原创 安装docker和docker-compose以及docker常用命令总结

在linux下安装docker,离线在线安装docker compose,以及一些docker命令总结。

2025-03-29 13:40:26 626

原创 DeepSeek-R1解读

和DeepSeek-R1是在模型基础上微调来的,模型参数是671B,每个token激活参数37B,支持的上下文长度是128K。是一种通过大规模强化学习(RL)训练的模型,无需监督微调 (SFT) 作为初步步骤,在推理方面表现出色。借助 RL,DeepSeek-R1-Zero 自然而然地出现了许多强大而有趣的推理行为。然而,DeepSeek-R1-Zero 遇到了诸如无休止重复、可读性差和语言混合等挑战。

2025-03-17 12:49:53 400

原创 DeepSeek V3解读

训练成本低,但效果卓越。DeepSeek V3的参数量为671B,每个token激活 37B,支持上下文长度为128k。训练语料由14.8T高质量且多样化的token组成, 在2048个H800上训练了2.788M H800 GPU小时,耗时57天(2.788*1000000/2048/24=56.78天),用了558万美元。其所用的GPU训练资源仅为Llama 3.1 405B的差不多1/14,但是效果显著。

2025-03-17 12:41:41 680

原创 DeepSeek-VL2解读

这是一系列先进的大型混合专家(MoE)视觉语言模型,比其前身DeepSeek-VL有了显著改进。DeepSeek-VL2在各种任务中都表现出卓越的能力,包括但不限于视觉问答、光学字符识别、文档/表格/图表理解和视觉基础。我们的模型系列由三个变体组成:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和,他们之间的主要区别在于基础LLM。基于DeepSeekMoE-3B 构建(总激活参数为 1.0B)

2025-03-16 09:25:28 814

原创 DeepSeek-Prover-V1.5解读

DeepSeek-Prover-V1.5是DeepSeek为Lean 4中的定理证明而设计的开源语言模型。该模型是在DeepSeekMath-Base 基础上训练出来的,该模型一共有三个版本,分别是DeepSeek-Prover-V1.5-Base,DeepSeek-Prover-V1.5-SFT和DeepSeek-Prover-V1.5-RL。虽然参数量只有7B,但是在高中水平 miniF2F 基准(63.5%)和本科水平 ProofNet 基准(25.3%)的测试集上均取得了新的最优结果。

2025-03-16 09:05:22 806

原创 DeepSeek发布的Janus系列解读

Janus一共有三个系列,分布是Janus,Janus-Pro,JanusFlow。他们统一了多模态的理解和生成。之前的研究通常依赖单一的视觉编码器来同时完成这两项任务,现在Janus 将视觉编码过程解耦,分别为视觉理解和视觉生成提供独立的编码器。支持4k的上下文长度。我们在两个基准测试 GenEval 和 DPG-Bench 上评估性能。总体而言,Janus-Pro 超越了之前的统一多模态模型以及一些特定任务的模型。

2025-03-15 11:24:42 1084

原创 DeepSeek-Coder-V2解读

DeepSeek-Coder-V2是一种开源的混合专家(MoE)代码语言模型,在特定代码任务中实现了与GPT4 Turbo相当的性能。发布了参数量分别为16B和236B的两个版本。DeepSeek-Coder-V2是从DeepSeek-V2进一步预训练来的。通过这种持续的预训练,DeepSeek-Coder-V2大大提高了DeepSeek-V2的编码和数学推理能力。DeepSeek-Coder-V2将其对编程语言的支持从86扩展到338,同时将上下文长度从16K扩展到128K。

2025-03-15 10:41:32 947

原创 DeepSeek-Math解读

是DeepSeek推出的数学推理大模型,使用DeepSeek-Coder-v1.5-7B进行初始化,并继续对来自 Common Crawl 的数学相关tokens以及 500B 个tokens的自然语言和代码数据进行预训练。7B在不依赖外部工具包和投票技术的情况下,在竞赛级MATH基准上取得了令人印象深刻的51.7%的成绩,接近和GPT-4的性能水平。使用500B。

2025-03-14 22:18:07 855

原创 OpenAI深夜大招暴打Manus,发布通过API构建智能体的新工具,支持网络和文件搜索以及computer use

Manus掀起的智能体风暴,再次逼急了OpenAI,OpenAI 在2025年3月11日发布了一系列可让开发者通过API构建智能体的新工具,让智能体开发进入新时代。全新Responses API:将Chat Completions API简单性与Assistants API工具使用功能相结合,用于构建智能体。内置三大工具:网络搜索、文件搜索和Computer Use。Agents SDK:用于编排单智能体和多智能体工作流。observability tools:用于跟踪和检查智能体工作流程执行情况。

2025-03-14 21:56:46 1113

原创 vllm多卡部署qwen2.5-72b-instruct

1. 介绍1.1 vllmvLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架,旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。vLLM是一个快速且易于使用的库,用于 LLM 推理和服务,可以和HuggingFace 无缝集成。vLLM利用了全新的注意力算法「PagedAttention」,有效地管理注意力键和值。vLLM的特点和优势:采用了 PagedAttention,可以有效管理 attention 的 keys、values。vllm多卡部署qwen2.5-72b-instru

2025-02-23 19:04:00 798

原创 用llama-factory微调DeepSeek-R1

用llama-factory的0.9.1版本微调DeepSeek-R1-Distill-Qwen-1.5B,微调数据是对文档段进行问答对提取的4000条样本。使用微调后的模型进行推理。合并微调后的模型问题。微调GPU配置H20-96G。H20-96Gpython3.10.8touch 2.1.2+cu121torchvision 0.16.2+cu121CUDA Version: 12.4https://github.com/hiyouga/LLaMA-Factory/tree/v0.9.1cd LLa

2025-02-23 18:49:13 1415

原创 使用ollama部署DeepSeek-R1-Distill-Qwen-1.5B

Ollama是一个基于 Go 语言的本地大语言模型运行框架,类 docker 产品(支持 list,pull,push,run 等命令),ollama将类似于镜像的大模型从中央仓库拉取到本地,可以把ollama看作,把ai大模型看作是镜像。DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司。推出国产大模型DeepSeek-V3和DeepSeek-R1。总参数量为671B,激活37B。优势:1:开发费用超级低,训练成本约为558万美元,是美国最好的模型openAI o1开发费用的3%

2025-02-07 11:10:56 2108

原创 deepseek-MTP中用到的RMSNorm均方根归一化

DeepSeek-V3研究并设置了一个多token预测(MTP)目标,该目标将预测范围扩展到每个位置的多个未来token,Multi-Token Prediction(MTP)可以显著加快模型的解码速度,MTP中用到了RMSNorm,计算复杂度:RMSNorm减少了均值的计算,降低了整体计算量。数值稳定性:RMSNorm避免了方差接近零的情况,提升了数值稳定性。表现性能:在某些任务中,RMSNorm可以达到或超过LayerNorm的性能。

2025-02-07 10:01:51 345 4

原创 使用vllm部署DeepSeek-R1-Distill-Qwen-1.5B

是伯克利大学LMSYS组织开源的大语言模型高速推理框架,旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。也正是因为如此,DeepSeek R1价格非常便宜,每100万个输出tokens 2.19美元,而 OpenAI o1 则需要60美元,DeepSeek R1便宜 96.4%,性能却不相上下,完全就是逆风翻盘。推出国产大模型DeepSeek-V3和DeepSeek-R1。由于硬件的限制,我们下面用vllm部署了一个最小的模型DeepSeek-R1-Distill-Qwen-1.5B。

2025-02-02 17:22:08 7063 5

原创 搭建Langchain-Chatchat-v0.2.10 + chatglm3-6b环境

在linux上搭建Langchain-Chatchat-v0.2.10 + chatglm3-6b + bge-large-zh。3.2.2 修改文件configs/model_config.py。上下载Langchain-Chatchat的v0.2.10版本。ip是搭建langchain-chatchat的服务器ip地址。4.3 往知识库中添加文档“统计学习方法李航.pdf”2.1 创建python3.10虚拟环境。3.2.1 首先运行以下命令。3.4 按照以下命令启动项目。对话模式选择知识库问答。

2024-06-15 09:30:39 1493 1

原创 用llama-factory的0.7.1版本微调llama3-8B-Instruct-262k

说明训练用的是torch.float16.,推理用的是torch.bfloat16. 我们可以修改Llama-3-8B-Instruct-262k中的config.json文件,把config.json里面的"torch_dtype": "bfloat16",修改成"torch_dtype": "float16"。2.6 增加examples/lora_single_gpu/llama3_lora_paper_review_sft.yaml文件。数据文件:paper_review.json。

2024-06-12 16:31:06 1667 3

多模态理解和生成的创新解决方案:Janus系列模型的技术解析与应用

内容概要:本文介绍了由 DeepSeek 开发的 Janus 系列模型,包括 Janus、Janus-Pro 和 JanusFlow。这些模型通过解耦视觉编码器,分别针对视觉理解和视觉生成任务进行优化,支持高达 4k 的上下文长度。Janus 系列采用了三阶段训练过程,包括适配器和图像头部训练、统一预训练和监督微调。Janus-Pro 版本在多个方面进行了改进,如优化训练策略、扩展训练数据和扩大模型规模,显著提升了多模态理解和文本到图像生成的效果。JanusFlow 则将基于视觉编码器的理解框架与基于 Rectified Flow 的生成框架融合,实现了端到端训练。此外,文中还提供了详细的架构配置、超参数设置以及与其他模型的性能对比,并附有本地部署指南。 适合人群:从事多模态研究、自然语言处理和计算机视觉领域的研究人员和技术开发者。 使用场景及目标:适用于需要高性能多模态理解和生成的应用场景,如图像生成、对话系统、文档理解等。目标是提高模型在多模态任务中的表现,特别是在文本到图像生成方面的稳定性和视觉质量。 其他说明:Janus 系列模型在 GenEval 和 DPG-Bench 基准

2025-03-30

LLaMA2-翻译.pdf

对llama2的论文进行了中文翻译

2025-03-20

自然语言处理领域的文本分类与词表示库-fastText的技术原理及应用

内容概要:本文介绍了fastText库及其在文本分类和词表示方面的技术创新。首先探讨了现有词向量方法存在的不足之处,即无法有效表示句子且未充分利用词语形态学特性。为了克服这些问题,fastText通过将词语拆分为字符级别的n-grams来构建词向量模型,并利用这种特征进行高效的文本分类任务。相比传统的连续袋模型(CBOW),跳跃模型(skip-gram),fastText能够在较少的时间开销下获得更好的性能,在多个情感分析数据集上取得了优异的成绩;同时它还能够对未见过的数据建立有效的预测机制。 适合人群:从事自然语言处理相关工作的研究人员和技术从业者,特别是那些希望提高短文本理解和建模能力的人士。 使用场景及目标:1. 在需要快速而准确实现大规模文本分类的应用环境中;2. 对于包含丰富语法规则的语言,希望通过加入词汇级的细粒度特征提升表征效果的情况;3. 实施无监督或者半监督学习项目时作为工具或组件。 其他说明:文中展示了与其他先进系统的比较实验,证实了其优越性和实用性;此外作者提供了简单易用的操作指南,并积极维护开源版本,确保广泛采纳与持续改进的可能性。fastText已被证明可以在

2025-03-20

大规模语言模型(LLM)微调技术综述及其应用场景

内容概要:本文详细总结了几种主流的大规模语言模型(LLM)微调技术,包括Freeze方法、P-tuning方法、Prefix-Tuning、Prompt Tuning、P-tuning V1/V2、Lora方法以及Qlora方法。重点探讨了每种方法的具体实现机制,如参数冻结、连续和离散提示的运用、低秩矩阵适应以及4-bit量化技术,并分析了它们的优缺点。此外,文章解释了这些方法如何通过仅调整少量参数来减少显存占用,降低硬件门槛,并达到接近甚至超越全参数微调的效果,极大地提高了模型的适用性和灵活性。 适合人群:适用于具有一定机器学习背景的研究人员和技术开发者,特别是关注大模型应用的小型团队和个人。 使用场景及目标:帮助开发者在有限的计算资源条件下快速有效地定制预训练模型,解决特定领域的自然语言处理问题。如文本分类、问答系统构建等场景中优化模型表现。 其他说明:除了介绍各种微调技术和理论依据外,文中还提供了丰富的文献引用和代码链接供进一步研究使用。通过对不同规模的任务进行全面对比实验,揭示了各类方法的应用潜力和局限性。

2025-03-20

大型语言模型LLM中英文评估基准及其应用场景综述

内容概要:本文详细介绍了一系列用于评估大型语言模型(LLM)的中英文评测基准及其具体应用场景。文中提及多个评估套件,如C-Eval(多级别多层次中文测评)、GAOKAO(基于中国高考的评估集)、AGIEval(评估模型通用智能的人类标准基准)、PromptCBLUE(专注于医疗场景的任务)及英文领域的MMLU(跨学科多任务理解评测)与Open LLM Leaderboard(来自HuggingFace的评测榜)。每个基准都有独特的评估侧重点,并提供详细的任务描述及资源链接供研究或开发者查阅。 适合人群:从事人工智能尤其是自然语言处理(NLP),对大型语言模型有深入探索需求的研究人员和技术人员。 使用场景及目标:①帮助研究者们挑选合适的评估基准去验证和发展自己的LLM;②了解不同类型的数据集合它们的特点,为训练模型选择正确的参数;③跟踪最先进技术水平的变化趋势,在特定领域应用大模型前明确当前技术所能达到的效果。 其他说明:各基准提供了大量实际操作案例,对于想要深入了解LLMs性能边界的研究者来说非常有用。同时,由于部分评估指标涉及到复杂的学术理论或技术细节,因此推荐有一定专业知识背景者研

2025-03-20

deeepseek Janus-Pro:优化训练策略与大规模数据集推动统一多模态理解和图像生成能力提升

内容概要:本文介绍了名为Janus-Pro的新模型,它是先前工作Janus的一个重要改进版本,专注于提升多模态理解和文本到图像生成的能力。该研究主要通过三种方式实现了性能的显著提升:(1)优化了训练策略,使训练过程更加高效;(2)扩展了训练数据规模并增加了高质数据的比例;(3)提升了模型大小至1B和7B参数级。这些改进使得Janus-Pro在多个基准测试中超越了许多现有的顶级模型,在文本到图像指令跟随任务上表现出色,图像生成效果更稳定,并且对简短提示有更好的响应。 适用人群:适用于深度学习领域的研究人员以及需要高级图像生成工具的应用开发者,尤其对于关注多模态理解(即融合图像和文本处理任务)的研究团队来说具有重大意义。 使用场景及目标:可用于自然语言处理、视觉生成任务如广告设计、虚拟现实等场景。具体应用包括根据短文字输入生成高质量图片,改善现有视觉生成系统的准确性和鲁棒性。同时也有助于提高视觉理解和图像识别能力。 其他说明:该项目已经开源,所有源代码可以在项目主页下载。这为未来进一步探索多模态处理提供了坚实的基础和技术支持。此外,作者指出了模型的一些局限性,比如低分辨率导致的精细特征不足

2025-03-15

deepseek发布的多模态理解与生成领域的解耦视觉编码模型Janus:统一框架及其性能提升

内容概要:本文介绍了名为Janus的多模态理解与生成统一封装框架。研究指出,现有的大多数模型采用单一视觉编码器进行任务导致在不同信息粒度的要求间做出折衷,进而削弱了表现。Janus模型创新点在于将其视觉编码解耦成两个独立路径——分别为理解和生成服务,同时保持了一个共享的Transformer架构来处理所有任务。该方法不仅消除了两项任务间的冲突,而且提高了系统灵活性。实验表明,在同等参数量级别下,Janus优于已有的多模态融合框架,并能在特定数据集上胜过专用单任务模型。 适用人群:从事多模态深度学习的研究人员、工程师或者对视觉与文本一体化处理感兴趣的专业人士。 使用场景及目标:① 提供更加高效的多模态联合训练手段;② 解决由于不同类型输入造成的不同程度信息需求矛盾;③ 打造下一代智能应用所需的技术基础和技术工具;④ 支持更多样化的感官输入扩展,比如点云、EEG信号或是音频。 其他说明:作者团队还展示了利用不同规模的数据训练后取得的各项评测成绩对比图表,并讨论了一些关于未来改进方向和技术挑战的内容。此外,附录中详细解释了一个用于消融测试时加强基线设置中的语义标记器的设计细节。 标签1:多模

2025-03-15

deepseek发布的多模态视觉与文本生成模型JanusFlow的技术研究与应用探索

内容概要:论文介绍了 JanusFlow,这是一个融合了自回归和整流流(rectified flow)的统一框架,在多模态理解和图像生成方面表现出色。文章详细描述了其架构和训练方法。它利用预训练的大规模语言模型和卷积网络,将多任务视觉编码器解耦,使得理解与生成模块能够有效分离。同时,在训练过程中加入了表现对齐正则化技术,优化特征表示的一致性和质量。通过实验证明了 JanusFlow 模型在多模态基准测试中达到了领先的性能水平,并能高质量地遵循文本指令进行图片生成。 适合人群:具备深度学习理论基础知识以及一定自然语言处理经验的研究人员和技术专家。 使用场景及目标:可用于开发新型人机交互界面、智能助手或者创意艺术设计工具等方面的应用,尤其是在需要整合复杂视觉与文本数据并高效转换成直观表达形式的情况下非常有价值。 其他说明:除了优秀的实验成绩外,JanusFlow 还提供了详细的消融研究表明各种组件的作用及其贡献程度。

2025-03-15

Prompt Engineering

Prompt Engineering

2025-02-02

中文姓氏1074个,按照TF排序

中文姓氏1074个,按照TF排序。

2025-02-02

深度学习代码智能模型DeepSeek-Coder-V2:打破闭源模型屏障的技术突破与性能提升

内容概要:本文介绍了开源大型代码语言模型DeepSeek-Coder-V2,旨在推进代码智能化的发展,通过从高质量的多元语料中持续预训练超过6万亿词汇来改进其编码和数学推理能力,并将通用自然语言处理性能保持在高水平上。DeepSeek-Coder-V2不仅扩展了对多种编程语言的支持(由原来的86种增加到338种),还将最大上下文长度由16K扩大到了128K标记。实验结果表明,DeepSeek-Coder-V2的各项性能指标能够媲美当前最顶尖的闭源代码模型,如GPT4-Turbo,在编程任务上的表现尤为出色。 适用人群:主要面向软件开发者、人工智能研究人员以及需要高效代码生成工具的专业人士。 使用场景及目标:该模型适用于自动完成代码、错误修复、竞争编程等问题解决,尤其适用于处理复杂的长文本代码片段,有助于提高程序开发效率并减少人工成本;同时也可用于研究开放源代码的大规模语言模型及其应用潜力。 其他说明:作者团队通过对多个基准数据集进行全面评估,验证了DeepSeek-Coder-V2在各种实际应用场景中的优越性和竞争力。此外,该项目已向社区公开所有成果及代码,允许商业应用。

2025-02-02

形式化数学证明中的增强强化学习与蒙特卡罗树搜索-基于Lean 4的DeepSeek-Prover-V1.5模型优化

内容概要:本文介绍了由DeepSeek团队开发的形式化数学推理工具——DeepSeek-Prover-V1.5,在之前版本的基础上改进了训练方法和技术手段,并显著提升了在高中水平(miniF2F测试集)和大学水平(Theorem验证集)上的自动定理证明表现。论文提出的新机制包括对正式数学数据的预训练、利用证明辅助反馈进行监督微调(引入链思考注释及中间战术状态)和强化学习阶段,并引入了一种创新性的内在奖励引导蒙特卡罗树搜索(MCST)。最终该系统在两个主要基准上的成绩超过了现有技术。具体地,模型在单一通路生成和基于RMaxTS的MCST上实现了显著进步。 适用人群:计算机科学家、AI研究人员、机器学习专家以及任何形式化的数学爱好者,特别是那些对于定理自动化证明有着浓厚兴趣的人。 使用场景及目标:该系统可用于提高大型语言模型理解和应用正式逻辑语言的能力,尤其是在涉及高等代数或实数分析等领域时;此外还可以用于教育目的,比如帮助学生练习解决复杂的数学竞赛题目或是教授研究生级别的离散数学课程。研究方向之一在于通过持续优化算法进一步改善此类任务的表现效率,从而使得更多未经过专门训练的专业外人士能够享受到先进的人工智能带来的便利与乐趣。 其他说明:为了确保高质量的数据集并有效评估系统性能,作者采用了多种不同的实验设置,如单步采样法(一次完整推演)、树搜索扩展以及最佳先行搜索法来计算模型生成正确证据所需的尝试次数,并通过多次迭代不断调整超参数直到获得满意的结果为止。同时值得注意的是,与以往的研究成果相比,此次发布不仅增强了单次推断成功率而且即使增加样本规模也能维持住优势。

2025-02-02

语言模型中Tree of Thoughts方法在复杂问题解决中的应用与改进

内容概要:本文介绍了名为 'Tree of Thoughts'(ToT)的一种新的语言模型推理框架,用于改善语言模型解决问题的能力,尤其是在需要探索和全局规划的任务上表现尤为出色。具体而言,作者将问题分解成多个可能的路径进行推敲,在每个步骤对不同的想法进行评价来决定下一步行动,允许回溯和预判决策。实验结果显示这种方法大幅提升了现有语言模型(如GPT-4)对于涉及非平凡规划任务的成功率。例如,在游戏中,通过ToT方法使得GPT-4成功解决了约74%的问题。 适合人群:自然语言处理领域的研究人员和技术爱好者,尤其关注高级问题求解算法和大规模语言建模方面的人士。 使用场景及目标:适用于各种复杂的任务类型,特别是当传统的基于单链路推理的方法难以找到最优解决方案时,比如24点游戏、创作写作以及迷你填字谜。 其他说明:论文探讨了不同类型的搜索算法(广度优先和深度优先),并提供了详细的实验配置和参数设定。还比较了几种不同的提示技术和改进措施,证明了所提出的ToT框架能够有效利用预训练的语言模型来进行更高效的问题求解,并对未来研究指明了方向。同时讨论了一些局限性和成本效益考虑。

2025-02-02

大语言模型评测综述:多维度评估框架与基准的发展趋势及应用

内容概要:本文详尽探讨了近年来针对大语言模型的多种评测方法和技术框架,介绍了 Dynabench、HELM、AGI-EVAL、MT-Bench、Chatbot Arena 和 FlagEval等多个代表性评测工具及其特点。此外还详细讲解了大模型评测的常见维度,包括准确性、鲁棒性、效率、无偏性和毒性,并列举了一系列实际使用的案例分析。文中不仅总结了现有的成就,也探讨了未来发展的方向,提出了一些关键挑战。例如:当前大模型评估过于依赖公开基准和短期竞赛,可能导致研究过度集中在少数任务而非全面提升。 适用人群:对自然语言处理技术和大语言模型感兴趣的学者及从业者;想要了解最新评测工具的企业技术人员。 使用场景及目标:①学术研究人员使用这些评测工具进行前沿科研;②科技公司利用它们评估自有产品和服务;③希望获得关于大语言模型性能更深入了解的学习者。 其他说明:该文章为理解如何系统化、多维化地评估现代深度学习驱动的语言模型提供了宝贵的资料和洞见。随着NLP技术快速发展,新的评测手段也随之不断涌现,本报告对此进行了及时更新与深入解析。

2025-02-02

神经机器翻译与序列到序列模型的技术原理与应用

内容概要:本文详细介绍了神经机器翻译(Neural Machine Translation,NMT)和序列到序列模型(Sequence-to-sequence models),解释了它们在自然语言处理领域的广泛应用及其优势。教程逐步解析了不同模型的构造方法,从简单的n-gram语言模型过渡到复杂的递归神经网络(Recurrent Neural Networks,RNNs)、长短期记忆网络(LSTMs)以及带有注意力机制的编码器-解码器架构。同时探讨了处理稀有词问题的方法,并对这些技术的实际应用场景进行了展望。教程还提供了一些练习指导,使读者能亲自实践并测试所学到的内容。此外,还提到一些优化措施如批量训练和参数共享策略来改善计算效率。 适合人群:具备一定数学和编程基础,尤其是从事自然语言处理及相关领域研究或工作的专业人士及科研人员。 使用场景及目标:为研究人员和开发者提供深入理解和构建复杂模型的能力;适用于解决文本转换任务,如自动翻译、语音识别等;目标是在实践中运用高级建模技巧来提高系统性能。 其他说明:尽管文中涵盖了多种改进技术和未来发展趋势的讨论,但本文并非涵盖所有最先进或特定领域内的最新进展,而是侧重于基础知识的教学与入门级的应用介绍。对于掌握基础之后希望进一步探索的研究人员而言,这将是很有价值的学习材料。

2025-02-02

大型语言模型自动生成复杂指令数据集WizardLM:提升语言模型遵循指令能力的方法研究与评估

内容概要:本文介绍了Evolve-Instruct方法,一种用于自动生成多样且复杂的开放领域指令数据集的新方法,并展示了其用于改进大型语言模型(WizardLM)的效果评估。该方法通过对初始简单指令进行逐步复杂化(如增加深度或广度演化)以及筛选不合格的指令来扩展数据集规模。通过这种方式得到的指令用于微调预训练的语言模型。结果显示,在人类评价员针对复杂性和准确性打分时,由这种进化方法生成的数据明显优于人工创造的数据。特别是对于高难度任务部分,生成指令的模型甚至表现出超越ChatGPT的能力。作者还利用多种基准测试比较了不同模型之间的性能差异。此外,研究指出尽管存在优势,但仍有不足之处有待进一步优化,比如在代码理解和某些类型的数学推理方面表现欠佳。 适合人群:自然语言处理领域的研究人员和技术开发者,尤其是关注于对话系统或者自动文本生成的应用场景专业人士。 使用场景及目标:适用于希望提升机器学习项目中的模型执行特定任务时的理解力与响应质量的研究者。通过本研究所提出的技术路线可以更好地提高现有大语言模型对复杂指令的认知能力和反应效果。 其他说明:该工作不仅提出了创新性的数据增强方法,而且提供了开源代码和支持材料,为未来相关研究奠定了良好基础。同时强调需要更多关注模型安全性和伦理审查等问题。

2025-02-02

Baichuan 2系列大型多语言模型的技术解析与应用

内容概要:本文详细介绍了Baichuan Inc.开发的大规模多语言预训练语言模型——Baichuan 2系列,该系列包含两种不同参数规模(7B和13B参数)的模型,旨在解决多种自然语言任务并提高模型安全性。Baichuan 2在公开基准测试中表现出色,特别是在数学、代码、医学等领域,相比前作性能提升了数倍,显著优于多个现有开源模型。此外,Baichuan 2还特别关注多语言支持,并发布了经过大量预训练步骤的检查点以及对话优化后的聊天机器人版本。文中强调了模型训练过程中的关键技术选择及其优化手段,如数据集构建、分布式训练架构等,并讨论了一些伦理挑战。 适合人群:对大型语言模型(LLM)感兴趣的研究人员和技术从业者。 使用场景及目标:主要用于学术研究、企业级应用和其他对高质量文本处理有兴趣的应用场景,如智能客服、自动化写作和代码生成等,适用于提高特定领域任务的表现并探索负责任的人工智能。 其他说明:为了加速该领域的进步和支持更多的社区参与改进,所有模型都将开源发布以供公众访问与利用;同时提出了一种新的安全评估框架以确保模型输出的质量可控性和安全性。

2025-02-02

基于专家混合架构的高级视觉-语言模型DeepSeek-VL2及其多模态理解应用

内容概要:DeepSeek-VL2是一款基于专家混合架构的大型视觉-语言模型,它在图像识别和自然语言处理方面显著改进,采用了动态拼贴编码策略以及多头潜在注意力机制。其优势在于高效的训练和推理性能,尤其擅长高分辨率图片和复杂视觉-文本任务的处理,涵盖光学字符识别、表格解析、图文理解和视觉问答等多个应用场景。文中提到的三种不同规模的变体,参数量分别为1.0亿、2.8亿和4.5亿,均展示了强大的竞争力。研究团队还在GitHub发布了开源代码和预训练模型以供公众下载和进一步研究。此外,文中介绍了模型使用的多种高质量数据集及细致的数据增强方法,并讨论了一些未来的发展方向。 适合人群:计算机视觉和自然语言处理领域的研究人员,AI系统开发从业者,机器学习爱好者。 使用场景及目标:1.用于高分辨率图像处理;2.提高视觉与文本融合任务的效果;3.支持跨领域(如教育、医学等)的具体应用。 其他说明:本文强调的技术创新点包括但不限于动态分割技术,该技术解决了图像大小变化的问题;还有多层注意力压缩机制提高了推断效率等问题。同时论文指出了当前版本存在的局限性比如对话上下文窗口小、模糊物体识别困难等问题并展望了后续优化路径。

2025-02-02

基于隐马尔可夫模型的地图匹配算法(DHMM),用于低频GPS数据在复杂路网下的优化匹配精度提升

内容概要:本文聚焦于地图匹配领域的难题,提出了一个创新的有向地图匹配算法(DHMM),该算法以隐马尔可夫模型为核心,解决了传统方法在低频GPS数据及复杂路网条件下匹配不准的问题。具体而言,论文深入探讨了隐马尔可夫模型中涉及的观测概率与转移概率,并通过真实的城市出租车数据进行大量实验,验证了所提方法的有效性和优越性。相比P-L算法与标准HMM,DHMM在处理低频GPS数据方面展示出了更好的性能,特别是在复杂的双向往返路上,匹配准确率明显高于竞争对手。 适合人群:适用于关注智能交通、地理信息系统及物联网领域内的科研工作者和技术爱好者。尤其适合那些希望通过改进地图匹配技术和提高定位精度的研究者或者从事车载信息服务系统的开发者。 使用场景及目标:本研究旨在改善城市智能交通管理,为出行提供更精确的位置追踪和服务。具体来说,可以在公共交通调度、应急响应规划和个人导航等领域发挥作用。 其他说明:该研究所采用的技术不仅有助于优化现有系统,也为未来的智慧城市建设提供了重要的理论依据和技术支持。

2025-02-02

FlashAttention与FlashAttention2:大模型长上下文优化关键技术解析及应用

内容概要:本文深入探讨了 FlashAttention 与 FlashAttention2 技术,详细介绍了它们如何优化大语言模型中的注意力机制,尤其针对长上下文长度的问题。首先分析了标准注意力机制存在的显存占用多和高带宽内存(HBM)读写次数多的问题,并指出这两方面限制了大语言模型的最大序列长度。接着引入 FlashAttention 方法,通过改变计算顺序和使用额外的统计量进行分块计算,不仅降低了显存的需求,而且显著减少了HBM的读写频率。文中还特别讨论了分块计算的具体过程及其背后的数学原理,强调了该方法通过高效的IO感知策略和Kernel融合实现了显著提速和内存利用优化。 适合人群:面向具有一定AI和机器学习基础的研究人员和技术开发者。 使用场景及目标:旨在帮助读者理解现代大语言模型中高效计算与大规模文本处理的关键算法;具体目标包括:掌握闪速注意力机制的核心思想及其优势所在;明确如何应用于大型预训练模型的实际部署。 其他说明:文章提及FlashAttention已集成到PyTorch2.0及其他开源项目中。此外,还指出了后续工作中涉及的LLaMA2-long和其他基于LongLoRA改进的工作将在另一篇文章中进一步讲述。

2025-02-02

CMMLU:评估大规模多任务中文语言理解能力的新基准

内容概要:本文介绍了一个新的基准测试套件——CMMLU,用于评估大型语言模型(LLMs)在中国特定环境下的跨学科语言理解和推理能力。该基准涵盖了自然科学、社会科学、工程学及人文学科等领域,共包含67个不同难度的主题。通过对18种先进的中英文多语种和专为中国设计的语言模型进行评测,结果显示现有的大多数LLMs难以达到平均准确率超过40%,远低于随机猜测的25%。深入分析揭示了不同类型问题如否定句、复合选项对性能的影响。CMMLU填补了此前在汉语背景下评价语言模型的空白。 适合人群:从事自然语言处理领域的研究人员,特别是专注于构建及优化大型预训练模型的专业人士。 使用场景及目标:旨在帮助开发者更好地衡量LLMs对于中文的理解程度,并识别哪些方面的改进可以提升模型的表现;同时为未来的算法开发提供了宝贵的指导。 其他说明:作者团队公开发布了所有数据集及其代码以促进后续的研究发展,使得社区能够自由便捷地利用这些资源来检验自己的模型。

2025-02-02

中文多级多学科评估套件C-EVAL:评估大型语言模型在中国语境下的高级知识与推理能力

内容概要:本文介绍了名为C-EVAL的一个全新的、多层次、跨学科的中文评估套件。这个套件设计旨在评测基础模型(LLMs)在中国语境中的高级知识和推理能力,包括四个难度级别:中学、高中、大学和专业。C-EVAL涵盖52个不同学科,从人文到科学工程。它还引入了C-EVAL HARD,作为特别困难的问题子集,用于衡量高级推理能力。实验结果显示,在所有参与测评的LLMs中,只有GPT-4能在C-EVAL上平均达到超过60%的准确性,证明大多数现有模型仍有很大的改进空间。 适用人群:对自然语言处理、尤其是大规模预训练语言模型评估感兴趣的研究人员和技术从业者。 使用场景及目标:该工具可被用来分析各种大型语言模型在中文环境中表现的优点与不足,推动这些模型进一步发展和完善,以更好地服务于中国的应用场景。 其他说明:C-EVAL 数据集及相关评估代码公开发布于GitHub,并设有在线提交系统和实时排行榜供研究社区参考与合作。同时提醒未来的研究应该继续探索除精度以外的安全性和偏差等方面的考量。

2025-02-02

深度学习中基于根均方统计的层归一化方法-RMSNorm的提出及其应用

内容概要:本文介绍了一种新的正则化方法 —— 根均方层归一化(RMSNorm),该方法旨在克服传统LayerNorm引入计算复杂度的瓶颈。研究表明,RMSNorm通过仅采用输入的平方和根进行规范化而不进行重中心化操作,从而提高了计算效率,并保持了层激活幅度不变的特性以及隐含的学习率自适应能力。实验结果显示,在多个任务和不同模型架构上,RMSNorm达到了与LayerNorm相当的表现,同时速度提升了约7%-64%. 适合人群:从事深度学习研究或开发的研究员和技术人员。 使用场景及目标:适用于需要提升训练速度但不降低精度的需求,特别是对于有大量参数的大规模神经网络而言,能够显著降低每次迭代的时间消耗。 其他说明:提供了部分RMSNorm版本pRMSNorm,用于探索估计平方根时只需取部分样本的可能性,实际表现表明其性能接近完整的RMSNorm。

2025-02-02

电子商务推荐系统中利用整个空间多任务模型解决点击后转化率预估难题

内容概要:本文提出了一个新的方法——整个空间多任务模型(ESMM),用于估计点击后的转化率(CVR)。传统的方法在实际应用中面临样本选择偏差(SSB)和数据稀疏性(DS)的问题。为了解决这些问题,作者利用了用户行为的顺序性,引入了两个辅助任务:点击率预测(CTR)和点击加转换率预测(CTCVR),并让这两个任务与CVR共同训练来缓解挑战。实验结果显示ESMM在这两类问题上都显著优于现有方法,并证明其对消除样本选择偏差和提高稀疏条件下建模的能力。 适合人群:熟悉深度学习技术和电子商务推荐系统的研究人员和技术专家。 使用场景及目标:在工业级别的推荐系统或广告平台进行优化时使用,特别是在点击之后的用户购买意向评估。该方法旨在提升预估准确度和泛化能力以更好地服务于业务发展。 其他说明:此外,阿里还发布了基于淘宝推荐日志的数据集以便后续研究,并公开了一些详细的统计信息以及不同模型的表现比较表单。

2025-02-02

DIN Deep Interest Network for Click-Through Rate Prediction (Alibaba 2018)

DIN Deep Interest Network for Click-Through Rate Prediction (Alibaba 2018)

2025-02-02

Word2Vec中的数学原理详解

Word2Vec中的数学原理详解

2024-06-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除