- 博客(17)
- 收藏
- 关注
原创 私有化部署dify + DeepSeek-R1-Distill-Qwen-32B + bge-m3
Dify是一款开源的大语言模型(LLM)应用开发平台。对数百个模型的支持、直观的Prompt编排界面、高质量的RAG引擎、稳健的Agent框架、灵活的流程编排。在linux环境中使用docker部署dify,vllm部署DeepSeek-R1,ollama部署bge-m3。unexpected character "%" in variable name near "%H:%M:%S\n。Not supported URL scheme http+docker。
2025-03-29 14:50:00
1069
原创 安装docker和docker-compose以及docker常用命令总结
在linux下安装docker,离线在线安装docker compose,以及一些docker命令总结。
2025-03-29 13:40:26
630
原创 DeepSeek-R1解读
和DeepSeek-R1是在模型基础上微调来的,模型参数是671B,每个token激活参数37B,支持的上下文长度是128K。是一种通过大规模强化学习(RL)训练的模型,无需监督微调 (SFT) 作为初步步骤,在推理方面表现出色。借助 RL,DeepSeek-R1-Zero 自然而然地出现了许多强大而有趣的推理行为。然而,DeepSeek-R1-Zero 遇到了诸如无休止重复、可读性差和语言混合等挑战。
2025-03-17 12:49:53
400
原创 DeepSeek V3解读
训练成本低,但效果卓越。DeepSeek V3的参数量为671B,每个token激活 37B,支持上下文长度为128k。训练语料由14.8T高质量且多样化的token组成, 在2048个H800上训练了2.788M H800 GPU小时,耗时57天(2.788*1000000/2048/24=56.78天),用了558万美元。其所用的GPU训练资源仅为Llama 3.1 405B的差不多1/14,但是效果显著。
2025-03-17 12:41:41
681
原创 DeepSeek-VL2解读
这是一系列先进的大型混合专家(MoE)视觉语言模型,比其前身DeepSeek-VL有了显著改进。DeepSeek-VL2在各种任务中都表现出卓越的能力,包括但不限于视觉问答、光学字符识别、文档/表格/图表理解和视觉基础。我们的模型系列由三个变体组成:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和,他们之间的主要区别在于基础LLM。基于DeepSeekMoE-3B 构建(总激活参数为 1.0B)
2025-03-16 09:25:28
817
原创 DeepSeek-Prover-V1.5解读
DeepSeek-Prover-V1.5是DeepSeek为Lean 4中的定理证明而设计的开源语言模型。该模型是在DeepSeekMath-Base 基础上训练出来的,该模型一共有三个版本,分别是DeepSeek-Prover-V1.5-Base,DeepSeek-Prover-V1.5-SFT和DeepSeek-Prover-V1.5-RL。虽然参数量只有7B,但是在高中水平 miniF2F 基准(63.5%)和本科水平 ProofNet 基准(25.3%)的测试集上均取得了新的最优结果。
2025-03-16 09:05:22
807
原创 DeepSeek发布的Janus系列解读
Janus一共有三个系列,分布是Janus,Janus-Pro,JanusFlow。他们统一了多模态的理解和生成。之前的研究通常依赖单一的视觉编码器来同时完成这两项任务,现在Janus 将视觉编码过程解耦,分别为视觉理解和视觉生成提供独立的编码器。支持4k的上下文长度。我们在两个基准测试 GenEval 和 DPG-Bench 上评估性能。总体而言,Janus-Pro 超越了之前的统一多模态模型以及一些特定任务的模型。
2025-03-15 11:24:42
1090
原创 DeepSeek-Coder-V2解读
DeepSeek-Coder-V2是一种开源的混合专家(MoE)代码语言模型,在特定代码任务中实现了与GPT4 Turbo相当的性能。发布了参数量分别为16B和236B的两个版本。DeepSeek-Coder-V2是从DeepSeek-V2进一步预训练来的。通过这种持续的预训练,DeepSeek-Coder-V2大大提高了DeepSeek-V2的编码和数学推理能力。DeepSeek-Coder-V2将其对编程语言的支持从86扩展到338,同时将上下文长度从16K扩展到128K。
2025-03-15 10:41:32
950
原创 DeepSeek-Math解读
是DeepSeek推出的数学推理大模型,使用DeepSeek-Coder-v1.5-7B进行初始化,并继续对来自 Common Crawl 的数学相关tokens以及 500B 个tokens的自然语言和代码数据进行预训练。7B在不依赖外部工具包和投票技术的情况下,在竞赛级MATH基准上取得了令人印象深刻的51.7%的成绩,接近和GPT-4的性能水平。使用500B。
2025-03-14 22:18:07
856
原创 OpenAI深夜大招暴打Manus,发布通过API构建智能体的新工具,支持网络和文件搜索以及computer use
Manus掀起的智能体风暴,再次逼急了OpenAI,OpenAI 在2025年3月11日发布了一系列可让开发者通过API构建智能体的新工具,让智能体开发进入新时代。全新Responses API:将Chat Completions API简单性与Assistants API工具使用功能相结合,用于构建智能体。内置三大工具:网络搜索、文件搜索和Computer Use。Agents SDK:用于编排单智能体和多智能体工作流。observability tools:用于跟踪和检查智能体工作流程执行情况。
2025-03-14 21:56:46
1114
原创 vllm多卡部署qwen2.5-72b-instruct
1. 介绍1.1 vllmvLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架,旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。vLLM是一个快速且易于使用的库,用于 LLM 推理和服务,可以和HuggingFace 无缝集成。vLLM利用了全新的注意力算法「PagedAttention」,有效地管理注意力键和值。vLLM的特点和优势:采用了 PagedAttention,可以有效管理 attention 的 keys、values。vllm多卡部署qwen2.5-72b-instru
2025-02-23 19:04:00
812
原创 用llama-factory微调DeepSeek-R1
用llama-factory的0.9.1版本微调DeepSeek-R1-Distill-Qwen-1.5B,微调数据是对文档段进行问答对提取的4000条样本。使用微调后的模型进行推理。合并微调后的模型问题。微调GPU配置H20-96G。H20-96Gpython3.10.8touch 2.1.2+cu121torchvision 0.16.2+cu121CUDA Version: 12.4https://github.com/hiyouga/LLaMA-Factory/tree/v0.9.1cd LLa
2025-02-23 18:49:13
1422
原创 使用ollama部署DeepSeek-R1-Distill-Qwen-1.5B
Ollama是一个基于 Go 语言的本地大语言模型运行框架,类 docker 产品(支持 list,pull,push,run 等命令),ollama将类似于镜像的大模型从中央仓库拉取到本地,可以把ollama看作,把ai大模型看作是镜像。DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司。推出国产大模型DeepSeek-V3和DeepSeek-R1。总参数量为671B,激活37B。优势:1:开发费用超级低,训练成本约为558万美元,是美国最好的模型openAI o1开发费用的3%
2025-02-07 11:10:56
2111
原创 deepseek-MTP中用到的RMSNorm均方根归一化
DeepSeek-V3研究并设置了一个多token预测(MTP)目标,该目标将预测范围扩展到每个位置的多个未来token,Multi-Token Prediction(MTP)可以显著加快模型的解码速度,MTP中用到了RMSNorm,计算复杂度:RMSNorm减少了均值的计算,降低了整体计算量。数值稳定性:RMSNorm避免了方差接近零的情况,提升了数值稳定性。表现性能:在某些任务中,RMSNorm可以达到或超过LayerNorm的性能。
2025-02-07 10:01:51
347
4
原创 使用vllm部署DeepSeek-R1-Distill-Qwen-1.5B
是伯克利大学LMSYS组织开源的大语言模型高速推理框架,旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。也正是因为如此,DeepSeek R1价格非常便宜,每100万个输出tokens 2.19美元,而 OpenAI o1 则需要60美元,DeepSeek R1便宜 96.4%,性能却不相上下,完全就是逆风翻盘。推出国产大模型DeepSeek-V3和DeepSeek-R1。由于硬件的限制,我们下面用vllm部署了一个最小的模型DeepSeek-R1-Distill-Qwen-1.5B。
2025-02-02 17:22:08
7099
5
原创 搭建Langchain-Chatchat-v0.2.10 + chatglm3-6b环境
在linux上搭建Langchain-Chatchat-v0.2.10 + chatglm3-6b + bge-large-zh。3.2.2 修改文件configs/model_config.py。上下载Langchain-Chatchat的v0.2.10版本。ip是搭建langchain-chatchat的服务器ip地址。4.3 往知识库中添加文档“统计学习方法李航.pdf”2.1 创建python3.10虚拟环境。3.2.1 首先运行以下命令。3.4 按照以下命令启动项目。对话模式选择知识库问答。
2024-06-15 09:30:39
1493
1
原创 用llama-factory的0.7.1版本微调llama3-8B-Instruct-262k
说明训练用的是torch.float16.,推理用的是torch.bfloat16. 我们可以修改Llama-3-8B-Instruct-262k中的config.json文件,把config.json里面的"torch_dtype": "bfloat16",修改成"torch_dtype": "float16"。2.6 增加examples/lora_single_gpu/llama3_lora_paper_review_sft.yaml文件。数据文件:paper_review.json。
2024-06-12 16:31:06
1669
3
多模态理解和生成的创新解决方案:Janus系列模型的技术解析与应用
2025-03-30
自然语言处理领域的文本分类与词表示库-fastText的技术原理及应用
2025-03-20
大规模语言模型(LLM)微调技术综述及其应用场景
2025-03-20
大型语言模型LLM中英文评估基准及其应用场景综述
2025-03-20
deeepseek Janus-Pro:优化训练策略与大规模数据集推动统一多模态理解和图像生成能力提升
2025-03-15
deepseek发布的多模态理解与生成领域的解耦视觉编码模型Janus:统一框架及其性能提升
2025-03-15
deepseek发布的多模态视觉与文本生成模型JanusFlow的技术研究与应用探索
2025-03-15
深度学习代码智能模型DeepSeek-Coder-V2:打破闭源模型屏障的技术突破与性能提升
2025-02-02
形式化数学证明中的增强强化学习与蒙特卡罗树搜索-基于Lean 4的DeepSeek-Prover-V1.5模型优化
2025-02-02
语言模型中Tree of Thoughts方法在复杂问题解决中的应用与改进
2025-02-02
大语言模型评测综述:多维度评估框架与基准的发展趋势及应用
2025-02-02
神经机器翻译与序列到序列模型的技术原理与应用
2025-02-02
大型语言模型自动生成复杂指令数据集WizardLM:提升语言模型遵循指令能力的方法研究与评估
2025-02-02
Baichuan 2系列大型多语言模型的技术解析与应用
2025-02-02
基于专家混合架构的高级视觉-语言模型DeepSeek-VL2及其多模态理解应用
2025-02-02
基于隐马尔可夫模型的地图匹配算法(DHMM),用于低频GPS数据在复杂路网下的优化匹配精度提升
2025-02-02
FlashAttention与FlashAttention2:大模型长上下文优化关键技术解析及应用
2025-02-02
CMMLU:评估大规模多任务中文语言理解能力的新基准
2025-02-02
中文多级多学科评估套件C-EVAL:评估大型语言模型在中国语境下的高级知识与推理能力
2025-02-02
深度学习中基于根均方统计的层归一化方法-RMSNorm的提出及其应用
2025-02-02
电子商务推荐系统中利用整个空间多任务模型解决点击后转化率预估难题
2025-02-02
DIN Deep Interest Network for Click-Through Rate Prediction (Alibaba 2018)
2025-02-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人