MasonYyp-优快云博客

原创简单使用Celery

Python异步耗时任务的框架有celery、RQ (Redis Queue)、 huey、Dramatiq、funboost等，其中比较成熟的是celery和RQ (Redis Queue)。Celery 功能强大的“瑞士军刀”，是一个成熟、功能全面的分布式任务队列系统。它支持多种消息代理和后端，适合构建复杂、大规模的应用，以其灵活性和强大功能而闻名。RQ轻量级的“精致小刀”，基于 Redis，上手极快，配置简单，非常适合中小型项目或快速开发。

2025-11-23 22:15:38 180

原创简单使用LangExtract

LangExtract是一个Python库，利用大型语言模型（LLM）根据用户定义的指令从非结构化文本文档中提取结构化信息。它能处理临床记录或报告等材料，识别并组织关键细节，同时确保提取的数据与原文内容一致。

2025-11-23 12:00:20 182

原创 AgentOS使用和可视化

（1）创建启动脚本启动脚本：start.shpnpm dev将start.sh复制到agent-ui容器中（2）导出自定义镜像# 导出镜像# 创建容器查看日志。

2025-11-16 20:20:36 208

原创 Docker使用MinerU

MinerU是一款将PDF转化为机器可读格式的工具（如markdown、json），可以很方便地抽取为任意格式。效果不错，但是有点慢。

2025-11-16 16:22:56 273

原创 Docker安装unoconvert

unoconvert是使用LibreOffice作为文档转换服务器。这个比kkfileview快，转出的效果要好一点。

2025-11-16 00:03:15 206

原创 Docker安装和使用kkfileview

kkfileview项目是文件文档在线预览开源解决方案，项目使用流行的 Spring Boot 搭建，易上手和部署，部署好后可以独立提供预览服务，使用 http 接口访问，不需要和应用集成，具有跨系统跨语言使用的特性。

2025-11-15 22:26:04 347

原创使用Docker部署和使用PaddleOCR-VL

PaddleOCR-VL是百度开源PaddlePaddle生态下PaddleOCR的子项目，是一款先进、高效的文档解析模型，专为文档中的元素识别设计。从PaddlePaddle的布局的生态来看确实很厉害，目前虽然跟国外的框架有一定的差距和存在一些BUG，但这是国产的必经之路，需要慢慢成长。自己安装部署的版本兼容问题，真是太大了。PaddleOCR-VL（PaddleOCR）-文档解析的模型PaddleOCR-文字识别与文档解析基座PaddleX-实现产线级别的模型训练、推理与部署。

2025-11-15 18:01:42 467

原创拖拽式构建智能体的框架

拖拽式构建智能体的开源框架比较多，例如：偏向工作流：coze、sim、n8n等；偏向RAG的有：Dify、RagFlow、MaxKB等；支持使用国产coze，学习成本低，相对好用和成熟。sim智能体框架，Sim是一款AI应用的可视化工作流构建工具，支持通过拖拽方块即可构建AI代理工作流。通过在画布上连接模块，即可创建强大AI代理、自动化流程及数据处理管道——无需编写代码。使用github上的docker-compose搭建，没有安装成功。

2025-10-18 20:49:35 757

原创简单使用Marker

Marker是由Datalab维护的开源项目，它利用了surya的模型进行做的，能够快速准确地将文档转换为Markdown、JSON、分块数据及HTML格式。相对MinerU和Docling文件解析的效果较差，但是解析的速度是较快的，如果考虑速度和性能，可以考虑这个模型。不好的地方除了github没有官方本地部署较完整的文档。Datalab也维护了Surya，Surya是一款文档OCR工具包，功能包括：支持90多种语言的OCR技术、任意语言的行级文本检测。

2025-10-15 22:54:50 462

原创 FastAPI简单使用

FastAPI是一个高性能的Web框架，支持自动数据验证**、**自动文档生成和异步。Uvicorn是一款基于ASGI协议的高性能Python Web服务器，专为异步框架设计，支持FastAPI、Starlette等现代Web框架。

2025-10-04 22:37:58 882

原创简单使用OCRmyPDF

OCRmyPDF是基于Tesseract OCR实现的，用于将PDF扫描件或图片转化为可编辑和查询的PDF文件。olmOCR是由Ai2开发的一款将PDF及其他图像类文档格式转换为清晰易读的纯文本格式的工具集。安装方式和版本更新较多，便于维护。

2025-10-04 13:30:24 426

原创智能体长记忆解决方案Mem0和Memobase

为解决智能体的长记忆问题，有很多开源的方案，具有代表性的有Mem0、MemoryOS、Memobase、cognee等。Mem0是嵌入式项目，特长多Agent记忆管理，适用于快速集成、短期记忆、开发资源有限的环境；Memobase是非嵌入式（需要构建独立的服务），特长单用户记忆管理，适用于长期画像、结构化记忆、企业级扩展；Mem0是专为现代 AI 智能体设计的记忆层。

2025-10-01 17:53:35 1055

原创简单使用Vanna

"""自定义虚拟基类大模型"""# 调用超类# 模型基本信息# 构建客户端# 调用超类生成sql# 用 "_" 替换 "\_"return sql# 继承虚拟基类# 注意会使用向量，模型默认是 all-MiniLM-L6-v2# 构建自定义Vanna})# 1 连接MySQL数据库# 2 训练数据"""# 此注释的内容可以不要# 获取数据的属性信息# 把信息模式分解为LLM可以引用的小块"""# 添加表结构schema。

2025-09-21 23:15:10 292

原创 NL2SQL简单使用

将自然语言转化为SQL或者叫Text转SQL可称为。NL2SQL的核心作用是降低数据库查询的技术门槛，让非技术用户能用日常语言直接获取数据。它通过自动将自然语言问题转换为SQL查询，极大地提升数据访问和决策的效率。开源比较出名的NL2SQL框架有很多，例如：Chat2DB、Vanna、WrenAI、sqlchat等。（1）Chat2DB。

2025-09-20 22:25:20 1174

原创 Agno智能体框架简单使用

Agno是一个用于构建多智能体的Python框架，具有高性能和灵活性，支持从基础工具调用到复杂工作流的五个智能体级别。文章介绍了Agno的主要功能，包括Tools、Agentic RAG、Teams和WorkFlows，并提供了代码示例展示其简单工具调用和知识库构建方法（支持ChromaDB和LanceDB）。同时对比了其他开源智能体框架（如OpenManus、MetaGPT）和常用数据检索工具（Tavily、DuckDuckGo），指出Agno在接口易用性和性能方面的优势。还推荐了AI爬虫工具Firecr

2025-08-10 18:07:34 948

原创简单使用Slidev和PPTist

前端PPT制作有很多优秀的工具包，例如：Slidev、revealjs、PPTist等，Slidev对Markdown格式支持较好，适合与大模型结合使用，选哟二次封装；revealjs适合做数据切换，例如常规的走马灯和单页PPT等，PPTist可直接使用和二次封装。PPTist效果不错。项目地址。

2025-05-18 20:42:20 997

原创简单使用MCP

模型上下文协议（Model Context Protocol，MCP）是由Anthropic（产品是Claude）推出的开放协议，它规范了应用程序如何向LLM提供上下文。MCP可帮助你在LLM之上构建代理和复杂的工作流。从官网上看核心的功能点主要有Server、Resources、Tools、Prompts、Images。Server的主要功能是通过MCP协议实现服务连接管理、协议合规性验证、消息路由等。Resources的主要功能是向LLM传递数据，包括本地资源和远程资源等；

2025-04-20 18:07:56 722

原创借助LlamaIndex实现简单Agent

智能体的构建发展是一个趋势，借助LlamaIndex简单实现Agent。本文主要借助LlamaIndex中的FunctionTool和Workflow。Workflow是使用事件流的方法实现。

2025-04-19 20:51:22 445 1

原创 Docker安装hoppscotch

‌Hoppscotch‌是一个轻量、高效的[API开发生态系统，开源于2020年，原名Postwoman，后更名为Hoppscotch。它基于Vue.js构建，支持多种HTTP请求方法，包括GET、POST、PUT、DELETE等，并且支持WebSocket、Socket.IO、MQTT和GraphQL等多种通信协议‌。本文借助Hoppscotch和mailcatcher实现局域网登录。

2025-04-18 17:02:06 1978 1

原创使用Docker搭建开源Email服务器

开源的Email服务器比较多，例如：poste.io、MailCatcher、Postal、mailcow等。由于poste.io支持docker安装，页面比较美观，使用简单，支持SMTP + IMAP + POP3等协议，安全系数比较高的Web邮箱服务器。

2025-04-18 15:14:01 1525

原创制作Unoconv项目的Docker镜像

在Linux下将Office转换为pdf的很多包仅支持Windows，Unoconv是一个用LibreOffice转化文档的项目，已经归档（2025-3-31）。迁移后的新版本是unoserver，unoserver不太好用，我没安装成功，推荐使用Unoconv。参考地址。

2025-04-17 12:54:58 782

原创在线Markdown转化微信格式的编辑器

Markdown 文档自动即时渲染为微信图文，让你不再为微信内容排版而发愁！只要你会基本的 Markdown 语法，就能做出一篇样式简洁而又美观大方的微信图文。

2025-03-29 16:06:52 235

原创简单使用LlamaIndex实现RAG

使用LlamaIndex构建RAG的思路如下图，LlamaIndex需要自定义向量模型和类大模型组件。graph TDA[（1）构建Documet对象列表，读数据文档] --> BB[（2）构建Node对象列表，使用分割器分割Document，其中分割器有SentenceSplitter、TextSplitter等] --> CC[（3）向量化和存储，自定义嵌入模型和存储到数据库中，可以使用SimpleVectorStore、ChromaVectorStore等] --> D。

2025-03-29 14:09:04 651

原创 Docker安装嵌入框架Text Embeddings Inference (TEI)

文本嵌入推理（TEI，Text Embeddings Inference ）是HuggingFace研发的一个用于部署和服务开源文本嵌入和序列分类模型的工具包。TEI兼容OpenAI的嵌入模型的规范。

2025-03-05 19:28:23 2815

原创 Python简单使用MinerU

MinerU是国产的一款将PDF转化为机器可读格式的工具（如markdown、json），可以很方便地抽取为任意格式。目前支持图像（.jpg及.png）、PDF、Word（.doc及.docx）、以及PowerPoint（.ppt及.pptx）等。

2025-02-22 23:23:38 3901 5

原创 Docker安装分布式vLLM

vLLM是一个快速且易于使用的LLM推理和服务库，适合用于生产环境。单主机部署会遇到显存不足的问题，因此需要分布式部署。

2025-02-14 20:00:00 2707 1

原创 Docker安装pypiserver私服

在Python环境中安装twine上传自定义包注意：dist目录中是打包后的tar.gz或者whl文件，# 上传依赖包# 返回值# 上传tar.gz# 上传.whl。

2025-02-07 12:33:59 687

原创使用Flask和Pydantic实现参数验证

""""""#将对象转化为json字符串#将json字符串转化为json字典#设置返回值字典#Python中"..."3个点是Ellipsis对象，主要用于切片操作和类型注解‌#pydantic中Field的"..."3个点表示必填项"""#如果不使用Field设置验证参数，可以使用@field_validator注解#自定义验证器#cls是一个用于类方法的参数，代表类本身ifv<0:raiseValueError('年龄不能为负数')returnv。

2025-01-18 22:06:27 1007

原创 Docker私有仓库管理工具Registry

Registry是私有Docker仓库管理工具，Registry没有可视化管理页面和完备的管理策略。可借助Harbor、docker-registry-browser完成可视化和管理。Harbor是由VMware开发的企业级Dockerregistry服务。docker-registry-browser是对Dockerregistry的简单管理和可视化。

2025-01-17 17:22:50 779

原创安装和使用docling

在modelscop上查找“docling-models”，并下载下来；或者在HuggingFace上查找，并下载“ds4sd/docling-models”。

2024-12-15 19:02:46 7585 14

原创使用PyMuPdf将pdf文件转化为img

将pdf转化为img方法比较多，本文介绍一下pdf2image和PyMuPDF，使用pdf2image依赖poppler才能够实现转化pdf，由于安装配置poppler比较麻烦（Poppler 是用于处理 PDF 文档的开源库。它可以对pdf文件进行页面提取、文本提取、注释和书签等了一系列高级功能），因此选择了PyMuPDF库。

2024-12-08 21:10:12 681

原创简单使用vllm

vLLM是一个快速且易于使用的LLM推理和服务库。它支持分布式部署、容器化部署和OpenAI的数据格式等，并且内置了大模型服务，可以直接用命令启动。vllm与Ollama有一定的区别，Ollama适合个人和小服务，vllm适合企业和提供服务，vllm的性能较高，并且并发性也较好。vLLM是一个Python库，它包含预编译的C++和CUDA（12.1）二进制文件，因此需要有GPU支持。

2024-10-22 13:46:58 3286

原创 Tornado简单使用

Tornado 是一个基于Python的Web服务框架和异步网络库，它最初由 FriendFeed 开发，后来被 Facebook 收购并开源，通过利用非阻塞网络 I/O, Tornado 可以承载成千上万的活动连接，完美的实现了长连接、WebSockets, 和其他对于每一位用户来说需要长连接的程序.

2024-10-20 19:21:09 946 3

原创 Ubuntu22.04安装RTX3080

更新依赖包。

2024-10-19 16:13:20 1427

原创安装和简单使用Milvus

Milvus是国产的高性能分布式向量数据库。

2024-10-17 21:23:31 2890

原创安装GraphRAG

GraphRAG是微软开源的一种基于图的检索增强生成 (RAG) 方法。# 参考地址# Github地址。

2024-10-13 21:29:19 1665

原创 k8s安装ingress-nginx

将"registry.k8s.io/ingress-nginx/kube-webhook-certgen:v1.3.0@sha256:549e71a6ca248c5abd51cdb73dbc3083df62cf92ed5e6147c780e30f7e007a47。⚠️ 注意：需要将"deploy.yaml"源文件中的文件更改为国内的地址，因为registry.k8s.io是kubernetes的镜像源国内无法访问。⚠️ 在主节点上执行，主节点上无法访问ingress暴漏出的服务。

2024-08-04 12:54:59 865 1

原创 ubuntu22安装k8s-1.24.17

⚠️ 注意：此处的集群环境⚠️ 注意：docker版本：20.10.24，为了兼容k8s版本，此版本自带docker compose。

2024-08-01 11:49:12 1435

原创不错的开源大模型

【代码】不错的开源大模型。

2024-07-07 21:22:26 450

原创智能解析科学文献PDF文件的工具包

智能解析科研文献PDF的工具，我发现的主要有grobid和papermage。

2024-06-30 17:58:19 924 3

xmlPull的jar包.zip

空空如也