星哥来了-优快云博客

原创 Ollama 上下文限2048的解决方案

ollama默认限制上下文的长度是2048，如果我们用ollama作为知识库基准模型，上下文超过2048直接会被阻断，提出内容不会根据上下文来回答官方提出一个解决方案那就是通过设置num_ctx的大小来设置上下文，但是如果把会话改成ollama支持的openAI的方式这个属性就无效了经过本人的测试默认qwen2.5:14b-instruct-q8_0占用17g的显存也就是限制上下文2048，但是如果改成8192显存会直接飙升到30g左右，所以要慎重更改。

2025-01-12 11:02:52 6190

原创使用Infinity部署Embedding和Reranking模型

Infinity能快速部署LLM需要的嵌入式模型，同时遵守openai的规范省去了模型下载跟模型转换的过程大大简化了部署，容器大小才3G相比于Xinference等平台更加精简。

2025-01-02 14:25:01 1128 1

原创用openai开源的whisper部署自己的语音识别系统

但是我们今天不按照官方的文档部署，而使用这个项目https://github.com/ahmetoner/whisper-asr-webservice，这个项目在whisper基础上提供了web界面，并且可以用docker部署，非常方便。Openai开源了自己的语音识别项目whisper，可将视频和语音文件转为文字，个人认为效果可以比肩科大讯飞的收费产品，并且无需GPU，普通配置就可以运行。先试一下语音识别，点击"Try it out"按钮，填写参数，上传语音或视频文件，点击Execute就可以转换了。

2024-11-17 08:21:01 1579

原创 DockerSwarm集群应用

参数指定 Manager 节点的 IP 地址，它会被其他节点用于加入集群。执行此命令后会生成一个加入集群的 token。其他节点（即工作节点或额外的管理节点）需要加入到 Swarm 集群中。这会列出当前集群中的所有节点，以及它们的状态、角色（Manager/Worker）等信息。完成这些步骤后，你就能成功部署和管理一个 Docker Swarm 集群了。的服务，Swarm 将自动在集群中进行负载均衡，并在可用节点上分配服务。在 Docker Swarm 集群中，可以通过。更新服务时，可以直接使用。

2024-10-18 17:07:43 374

原创 Ollama使用Mem0做记忆存储

（发音为“mem-zero”）通过智能内存层增强了 AI 助手和代理，从而实现了个性化的 AI 交互。Mem0 可以记住用户的偏好和特征，并随着时间的推移不断更新，使其成为客户支持聊天机器人和 AI 助手等应用程序的理想选择。mem0会检索之前的记忆内容，获取关键的上下文信息，再根据上下文信息给大模型做回答。让大模型具有长期记忆的能力。提供了更加详细的方式来操作记忆。

2024-10-14 15:18:42 1332

原创 PostgreSQL存储向量

在数据分析和的领域，pgvector是一个强大的工具，它允许我们在中直接和操作向量数据。这种能力使得我们可以更加高效地处理高维数据，并快速执行诸如余弦相似度查询等任务。在本篇文章中，我将介绍如何使用Docker部署和测试pgvector。

2024-10-14 09:24:03 588

原创 Python搭建RAG运行环境

运行当前pip3后创建一个python项目运行以下代码，/data/Qwen2.5-0.5B-Instruct是你在魔搭下载的模型路径，正常应该是能跑起来了。如果你有gpu显卡你需要看你的cuda版本，如果没安装cuda去官网下载cuda 英伟达CUDA各版本官方下载地址：(推荐)本项目主要通过Python本地运行大模型，并且下载 embedding 跟 reranker 模型。构建基础的RAG环境。下载完cuda你需要下载pytorch支持大模型在显卡运行，torch版本要跟你cuda版本是一致的。

2024-10-11 11:19:52 312

原创阿里云盘通过WebDAV挂载到Linux目录

目录来访问和管理WebDAV服务器上的文件。当提示输入用户名和密码时，请输入您的WebDAV服务器的用户名和密码。在Linux上挂载WebDAV，您可以使用。替换为您要连接的WebDAV服务器的地址。阿里云开放WebDAV服务。在终端中运行以下命令来安装。在终端中运行以下命令来编辑。挂载成功后，您可以通过。在执行以上命令时，将。

2024-10-06 23:38:37 604

原创 LiteLLM/One-Api 统一各种大模型接口通过OpenAi格式访问

在我们调用其他大模型如Ollama，Gemini，OpenAi，Qwen等等，他们返回的格式都不太一样，这样每次接入这些接口相对都比较麻烦进行格式调整，LiteLLM统一了这些Api调用方式，通过配置，对应厂商的Api接口，都可以通过OpenAi接口的格式进行调用。项目可以直接提供了docker-compose一键部署。

2024-09-19 11:06:38 2483

原创使用kubeadm-ha脚本一键安装K8S

Kuboard是一款免费的Kubernetes图形化管理工具，力图帮助用户快速在Kubernetes上落地微服务。Kuboard_Kubernetes教程_K8S安装_管理界面。

2024-09-06 15:38:05 1103

原创 LLM知识存储ChromaDB向量数据库应用

以下代码做了基础测试，创建集合、文字转向量、插入集合、检索数据具体的可以查看Swagger文档提供了更多的操作，运行当前代码可以根据语意搜索到对应的内容，文字转向量需要部署应用Xinference。

2024-08-13 11:25:21 527

原创 python pyppeteer简易快速爬取网页数据

3、编写python代码，运行当前代码会获取百度页面的内容，通过pyppeteer api你可以获取当前网页的数据，爬取你想要的信息、pyppeteer 可以去官方查看api功能十分强大，可以模拟点击、跳转、登录登操作，完全模拟用户的操作行为，进行数据爬取。1、如何快速爬取网页的数据，在任何情况下都可以使用我们模拟的谷歌无头浏览器只需要两步就可以进行网页数据爬取。2、下载谷歌无头浏览器通过docker快速部署。

2024-08-12 20:14:12 422

原创简单编码方式构建大模型知识库

知识库构建需要一个大模型这里选用ollama可以选用qwen2模型，其次我们需要知识的检索跟知识的排序，部署xinference平台。图中的流程几乎都在调用http，只是做简单的逻辑梳理就能通过编码的方式来构建了知识库，在此基础上我们可以更加深入的进行业务调整。本文只用到http相互调用来构建知识库。只需要简单的python基础。embedding就是向量，转成向量后的数据可以保存到数据库中，通过编码的方式如faiss来进行向量查询来比对最相似的，如下代码就是通过模拟一组数据然后通过向量进行查询。

2024-07-28 10:56:53 1558

原创 LLM微调部署，如何创建属于自己的大模型

部署完成后，点击如图小按钮可以直接进行模型会话了，xinference也提供了具体的API可以去官网查看，就可以把微调大模型整合到你们自己的项目。接下来就是导出我们已经训练好的模型，选择export导出，导出完成后模型微调的工作已经完成，接下来需要对微调后的模型进行部署。默认docker容器内是没有数据集的，数据的需要自己创建，以下是容器内创建的两个文件，在/app/data目录下。训练数据chatglm3_zh.json，具体的数据集可以自己去定义只要保持这个格式就可以了。如何微调属于自己的大模型。

2024-07-18 09:54:34 949

原创 springboot 使用 ollama 搭建的大模型

，如果是 Windows 系统（如：D:\OllamaModels），避免 C 盘空间吃紧：Ollama 服务监听的网络地址，默认为，如果允许其他电脑访问 Ollama（如：局域网中的其他电脑），成，从而允许其他网络访问：Ollama 服务监听的默认端口，默认为等）：HTTP 客户端请求来源，半角逗号分隔列表，若本地使用无严格要求，可以设置成星号，代表不受限制：大模型加载到内存中后的存活时间，默认为。

2024-07-12 16:07:22 2436

原创 trino环境搭建项目使用

7.这里用Idea来连接trino成功的话能看到我们配置好的pgsql跟mysql的数据源，这里分别在pgsql跟mysql创建了两张表，用来做关联查询。如何在多个不同的数据库之间进行关联查询，获取查询结果目前采用trino做为技术方案，当前版本2024/6/23不保证后续版本是否会发生变化。需要注意mysql第一个是trino创建的名称加库名加表名，其他参考官方。4. 进入/etc/trino/catalog文件夹进行mysql数据源的配置，其他数据源配置方式也在这个位置具体参考官网。

2024-06-23 18:53:21 627

u013220851的博客