
chatgpt
文章平均质量分 71
学亮编程手记
学亮编程手记
展开
-
扣子基础版与专业版
links:https://www.coze.cn/open/docs/guides/edition原创 2025-04-01 08:40:47 · 134 阅读 · 0 评论 -
Dify知识库对文档上传的限制及要求:文档数量、单文件大小上限
支持格式包括TXT、Markdown、PDF、HTML、DOCX、CSV等。支持批量上传,具体批量数量上限取决于订阅计划。例如,免费版可能限制单次批量上传数量,企业版可放宽限制。支持集成ETL服务(如Unstructured服务)以解析复杂格式,例如EML、MSG、PPTX等。对于需要更大容量的场景,可通过创建多个知识库并整合使用。从Notion或网页同步数据时,需关注API速率限制,避免高频请求触发配额问题。超过15MB的文档建议使用“父子分段”模式,避免因长文本分段不当影响检索效果。原创 2025-03-31 17:00:03 · 409 阅读 · 0 评论 -
QAnything README
知识库数据量大的场景下两阶段优势非常明显,如果只用一阶段embedding检索,随着数据量增大会出现检索退化的问题,如下图中绿线所示,二阶段rerank重排后能实现准确率稳定增长,即数据越多,效果越好。QAnything使用的检索组件强大的双语和跨语种语义表征能力【基于MTEB的语义表征评测指标基于LlamaIndex的RAG评测,表现SOTA【基于LlamaIndex的RAG评测指标。原创 2025-03-31 09:59:32 · 890 阅读 · 0 评论 -
QAnything FAQ: 使用ollama本地服务时问答效果不佳
【代码】QAnything FAQ: 使用ollama本地服务时问答效果不佳。原创 2025-03-31 09:50:31 · 712 阅读 · 0 评论 -
AIGC和AGI介绍
AIGC(Artificial Intelligence Generated Content,人工智能生成内容)是指利用人工智能技术自动生成各种类型的内容,包括文本、图像、音频、视频等。AIGC通过深度学习、自然语言处理(NLP)、计算机视觉等技术,使机器能够理解、生成和优化内容,从而在内容生产过程中实现自动化和智能化。它基于生成对抗网络(GAN)、大型预训练模型等技术方法,通过已有数据的学习和识别,以适当的泛化能力生成相关内容。原创 2025-03-31 09:48:43 · 531 阅读 · 0 评论 -
网易有道开源本地知识库问答系统 QAnything 介绍及本地部署
(Embedding + Rerank),能有效提升大规模数据检索的准确率,数据量越大效果越好。此外,QAnything 支持跨语种问答(中英文混合问答),并可通过私有化部署保障数据安全,适用于企业级应用和个人知识库管理。QAnything 是由网易有道推出的开源本地知识库问答系统,基于 RAG(检索增强生成)技术开发,支持多种文件格式(如 PDF、Word、PPT、图片、网页链接等)的离线问答。服务启动后,浏览器访问。即可上传文件并提问。原创 2025-03-31 09:40:26 · 588 阅读 · 0 评论 -
网易有道开源知识库QAnything一键安装脚本
【代码】网易有道开源知识库QAnything一键安装脚本。原创 2025-03-31 09:37:15 · 170 阅读 · 0 评论 -
基于 OpenManus 的 Python 代码实现示例
【代码】基于 OpenManus 的 Python 代码实现示例。原创 2025-03-29 13:41:01 · 382 阅读 · 0 评论 -
Spring AI Alibaba OpenManus 代码示例
【代码】Spring AI Alibaba OpenManus 代码示例。原创 2025-03-29 13:27:53 · 404 阅读 · 0 评论 -
适合企业级私有知识库的LLM模型综合分析及选型建议
成本敏感型:复杂任务需求:安全与定制化:混合架构建议:原创 2025-03-28 21:51:21 · 277 阅读 · 0 评论 -
Ubuntu 22.04 安装 NVIDIA 显卡驱动完整步骤
【代码】Ubuntu 22.04 安装 NVIDIA 显卡驱动完整步骤。原创 2025-03-28 14:28:16 · 818 阅读 · 0 评论 -
PyTorch 深度学习框架学习建议
它的设计目标是让研究人员和开发者能够快速实验、灵活调整模型,同时支持高效的计算(如 GPU 加速)。PyTorch 的代码风格接近 Python 原生语法,因此对新手友好,适合从学术研究到工业落地的多种场景。PyTorch 的 API 设计简洁,与 Python 的语法高度兼容。例如,你可以像操作 NumPy 数组一样处理 PyTorch 的“张量”(Tensor),但张量还支持 GPU 加速计算。模块能自动计算梯度(导数),省去了手动推导复杂数学公式的麻烦,让反向传播(优化模型参数的核心步骤)变得简单。原创 2025-03-28 14:15:26 · 781 阅读 · 0 评论 -
llama.cpp 和 Ollama 的对比
选择 llama.cpp:若需要极致性能、硬件深度优化或企业级定制开发。选择 Ollama:若追求易用性、快速部署或个人学习场景。两者并非互斥,可结合使用:例如用 llama.cpp 训练或量化模型,再通过 Ollama 部署为服务。原创 2025-03-28 14:08:03 · 303 阅读 · 0 评论 -
使用 llama.cpp 加载量化模型推理的完整示例
假设已生成量化后的 GGUF 文件(如。原创 2025-03-28 14:04:28 · 312 阅读 · 0 评论 -
使用 llama.cpp 实现从 PyTorch 到 GGUF 的格式转换与量化
量化可显著缩小模型体积,但会损失一定精度。根据需求选择合适的量化类型(如。确保 PyTorch 模型以标准格式保存(如包含。的完整目录),通常通过。原创 2025-03-28 13:56:42 · 434 阅读 · 0 评论 -
vLLM 和 Xinference、Ollama 对 .safetensors 和 .gguf 格式的支持对比
格式的模型加载(尤其是 Transformer 架构的模型)。文件的目录,例如将 Lora 微调后的适配器与基础模型结合使用。例如,在 CPU 或 Apple M 芯片上运行时,Xinference 可通过内存映射(mmap)高效加载量化后的。例如,在 AMD GPU 上使用 ROCm 后端时,vLLM 能高效运行量化后的。Xinference 通过集成 Hugging Face 生态,默认支持。命令,并指定模型路径。显式指定格式,并搭配对应的量化参数(如。直接加载此类文件,例如在部署时使用。原创 2025-03-28 13:52:16 · 387 阅读 · 0 评论 -
LLM 大模型 .safetensors 与 .gguf 格式详解及 llama.cpp 将 PyTorch 模型转换为 GGUF
两者各有侧重:Safetensors 强调安全与轻量,GGUF 侧重性能与跨平台。开发者可根据部署环境和模型规模灵活选择。原创 2025-03-28 13:49:58 · 486 阅读 · 0 评论 -
vLLM 多机多卡场景集成 Ray
优势:无需额外配置,vLLM 内部处理多卡并行 17106。2. 多机多卡场景:需独立部署 Ray 集群适用条件:模型需跨节点部署(如流水线并行或混合并行)。关键步骤:安装 Ray:启动 Ray 集群:头节点:工作节点:启动 vLLM 服务:注意事项:网络配置:需指定通信网卡(如 )以优化跨节点通信 163。资源分配:需通过 Ray 的 Placement Group 显式分配 GPU,避免资源冲突 244。版本兼容性:vLLM 与 Ray 版本需匹配,部原创 2025-03-28 10:54:02 · 311 阅读 · 0 评论 -
Ray 介绍:开源的大模型分布式计算框架
Ray 凭借其灵活的分布式抽象高效的资源调度和强大的生态兼容性,成为 AI 和大数据领域的关键基础设施。无论是单机开发还是千节点集群,Ray 均能通过统一 API 简化复杂性,是未来十年值得关注的核心计算框架之一。对于开发者而言,掌握 Ray 意味着能够更高效地应对从实验到生产的全链路挑战141150。原创 2025-03-28 10:49:57 · 829 阅读 · 0 评论 -
通过 vLLM 整合多台PC的显卡资源运行本地大模型(多机多卡)
是整合多台PC显卡资源的首选工具,其分布式架构、生产级优化和成熟生态(如 Ray 和 Docker)能有效解决跨节点部署的复杂性问题。若需快速验证,可参考。根据你的需求(整合多台PC的显卡资源运行本地大模型),原创 2025-03-28 10:46:20 · 576 阅读 · 0 评论 -
vLLM 对本地模型多节点集群的支持说明及与ollama的对比
但需结合特定技术(如 Ray 或管道并行)实现。根据搜索结果,以下是关于。原创 2025-03-28 10:14:43 · 849 阅读 · 0 评论 -
关于 vLLM 和 Xinference 对本地模型的分布式部署支持说明
(张量并行)实现多GPU分布式推理,适用于大模型(如 Qwen2-72B)的本地部署。,可通过 Kubernetes 或 Docker Swarm 扩展,适合大规模生产环境。Xinference 支持。原创 2025-03-28 10:08:13 · 559 阅读 · 0 评论 -
Dify/FastGPT/RagFlow 分别通过 vLLM 和 Xinference 接入本地模型
vLLM 是一个高性能的 LLM 推理引擎,支持本地模型的低延迟、高吞吐部署。Xinference 是一个支持分布式推理的框架,适合多模型管理和异构硬件环境。重启 FastGPT 服务生效。原创 2025-03-28 10:01:58 · 458 阅读 · 0 评论 -
QWQ:32B Nvidia 4090 24GB 性能测试数据
links:https://zhuanlan.zhihu.com/p/29512785386原创 2025-03-28 09:09:07 · 169 阅读 · 0 评论 -
截至2025.3.27 ollama还不支持bge-reranker重排序模型
截至2025.3.27 ollama还不支持bge-reranker重排序模型,如图——原创 2025-03-27 16:31:16 · 200 阅读 · 0 评论 -
解决ragflow连接ollama时报错:Fail to access model(glm4:latest).**ERROR**: [Errno 111] Connection refused
具体原因是docker设置了http_proxy,将其去掉,然后重启docker即可。原创 2025-03-27 11:40:07 · 117 阅读 · 0 评论 -
RAGFlow本地docker compose部署
RAGFlow 可以为各种规模的企业及个人提供一套精简的 RAG 工作流程,结合大语言模型(LLM)针对用户各类不同的复杂格式数据提供可靠的问答以及有理有据的引用。请注意,目前官方提供的所有 Docker 镜像均基于 x86 架构构建,并不提供基于 ARM64 的 Docker 镜像。如果您在没有看到上面的提示信息出来之前,就尝试登录 RAGFlow,你的浏览器有可能会提示。在你的浏览器中输入你的服务器对应的 IP 地址并登录 RAGFlow。如果你遇到 Docker 镜像拉不下来的问题,可以在。原创 2025-03-27 08:37:11 · 912 阅读 · 0 评论 -
Docker 部署 Xinference
如果需要安装额外的依赖,可以参考。请确保使用 Dockerfile 制作镜像时在 Xinference 项目的根目录下。原创 2025-03-25 16:56:20 · 633 阅读 · 0 评论 -
LLM Rerank重排序模型介绍及选型建议
Rerank(重排序)是信息检索流程中的第二阶段,旨在对初步召回的候选文档进行细粒度排序,以提升结果与查询的相关性。其核心是通过语义理解模型对文档与查询的匹配度进行深度评估,超越传统关键词匹配或向量相似度的限制。原创 2025-03-25 16:06:28 · 647 阅读 · 0 评论 -
dify召回测试/引用归属
Dify 知识库内提供了文本召回测试的功能,用于模拟用户输入关键词后调用知识库内容区块。召回的区块将按照分数高低进行排序并发送至 LLM。一般而言,问题与内容块的匹配度越高,LLM 所输出的答案也就更加贴近源文档,文本“训练效果”越好。你可以使用不同的检索方式及参数配置,查看召回的内容区块质量与效果。不同的知识库分段模式对应不同的召回测试方法。通用模式父子分段模式在输入框输入常见的用户问题,点击按钮即可在右侧的内查看召回结果。在通用模式下,内容区块相互独立;内容块右上角的分数为内容与关键词的匹配分数。原创 2025-03-25 16:04:56 · 857 阅读 · 0 评论 -
开源 LLM 应用开发平台 Dify 功能介绍及通过 docker compose 部署
如果您需要自定义配置,请参考文件中的注释,并更新.env文件中对应的值。此外,您可能需要根据您的具体部署环境和需求对文件本身进行调整,例如更改镜像版本、端口映射或卷挂载。完成任何更改后,请重新运行。您可以在此处找到可用环境变量的完整列表。原创 2025-03-25 14:17:25 · 832 阅读 · 0 评论 -
docker部署OneAPI和M3E向量模型
【代码】docker部署OneAPI和M3E向量模型。原创 2025-03-22 18:08:39 · 277 阅读 · 0 评论 -
FastGPT 的能力与优势
FastGPT 是一个基于 LLM 大语言模型的知识库问答系统,提供开箱即用的数据处理、模型调用等能力。同时可以通过 Flow 可视化进行工作流编排,从而实现复杂的问答场景!🤖。原创 2025-03-21 21:42:18 · 677 阅读 · 0 评论 -
FastGPT 通过 AI Proxy 接入模型
范围1~100。数值越大,越容易被优先选中。原创 2025-03-21 15:08:59 · 962 阅读 · 0 评论 -
FastGPT 通过 OneAPI 接入模型
FastGPT 目前采用模型分离的部署方案,FastGPT 中只兼容 OpenAI 的模型规范(OpenAI 不存在的模型采用一个较为通用的规范),并通过来实现对不同模型接口的统一。是一个 OpenAI 接口管理 & 分发系统,可以通过标准的 OpenAI API 格式访问所有的大模型,开箱即用。原创 2025-03-21 15:04:43 · 866 阅读 · 0 评论 -
docker部署one-api
默认用户密码 root / 123456。原创 2025-03-21 11:17:35 · 373 阅读 · 0 评论 -
将 FastGPT 接入私有化模型 M3E 向量模型
*FastGPT 默认使用了 openai 的 embedding 向量模型,如果你想私有部署的话,可以使用 M3E 向量模型进行替换。M3E 向量模型属于小模型,资源使用不高,CPU 也可以运行。下面教程是基于 “睡大觉” 同学提供的一个的镜像。原创 2025-03-20 23:26:15 · 456 阅读 · 0 评论 -
将 FastGPT 接入私有化模型 ChatGLM2-6B
*FastGPT 允许你使用自己的 OpenAI API KEY 来快速调用 OpenAI 接口,目前集成了 GPT-3.5, GPT-4 和 embedding,可构建自己的知识库。但考虑到数据安全的问题,我们并不能将所有的数据都交付给云端大模型。那么如何在 FastGPT 上接入私有化模型呢?本文就以清华的 ChatGLM2 为例,为各位讲解如何在 FastGPT 中接入私有化模型。**ChatGLM2-6B 是开源中英双语对话模型 ChatGLM-6B 的第二代版本,具体介绍可参阅。原创 2025-03-20 23:15:53 · 597 阅读 · 0 评论 -
FastGPT 接入 Marker PDF 文档解析
使用 Marker 解析 PDF 文档,可实现图片提取和布局识别。原创 2025-03-20 23:12:37 · 522 阅读 · 0 评论 -
FastGPT 使用 Xinference 接入本地模型
一站式本地 LLM 私有化部署是一款开源模型推理平台,除了支持 LLM,它还可以部署 Embedding 和 ReRank 模型,这在企业级 RAG 构建中非常关键。同时,Xinference 还提供 Function Calling 等高级功能。还支持分布式部署,也就是说,随着未来应用调用量的增长,它可以进行水平扩展。原创 2025-03-20 22:58:25 · 1042 阅读 · 0 评论