liuzhenghua66-优快云博客

原创分词和同义词

摘要：自定义分词库与同义词库是提升NLP任务准确性的关键工具。分词库通过识别专有名词、网络新词和修正错误切分，确保语义完整性；同义词库则通过关联不同表达统一语义，提升搜索召回率与分析效率。核心方法包括基于Trie树的词典匹配、双向最大匹配算法及歧义解决机制。同义词应用采用分层策略，区分概念级和关键词级扩展，兼顾召回与精准。优化词典加载与评分机制可显著提升系统性能。（150字）**

2025-07-15 10:21:49 1310

MinerU 2.0使用sglang加速的部署指南本文介绍了MinerU 2.0基于sglang的两种部署方式。提供了优化的Dockerfile构建方案，通过缓存机制提升构建速度并精简模型下载内容。详细说明了Docker运行命令和docker-compose配置选项，包括GPU设置、端口映射等参数。最后给出了Python测试代码示例，展示如何调用sglang服务进行PDF文档分析处理。部署方案支持多GPU并行模式，可根据显存情况调整Tensor Parallel配置，同时提供了性能监控和健康检查机制。

2025-06-28 18:57:33 2268 2

原创 Word文档转Markdown

本文介绍了将Word文档(.docx)转换为Markdown格式的方案。主要内容包括： Markdown的优势：轻量级、易读易写、与开发工具兼容性好技术选型：使用python-docx库读取Word内容，自定义解析逻辑而非直接使用现成工具转换要点：处理段落、标题、文本样式（粗体/斜体）转换列表、表格等格式图片处理（提取并保存到本地）文中提供了Python实现示例代码，通过定义Section类来区分文档元素类型，并详细说明了处理逻辑。该方案支持灵活定制转换规则，适合需要精确控制输出格式的场景。

2025-06-27 15:33:55 1139

原创 markdown拆分chunk

摘要随着大语言模型的广泛应用，Markdown因其结构化特性成为知识库系统的标准中间格式。为适配模型的上下文长度限制，需将Markdown拆分为语义片段（chunk），常见方案包括：基于NLP的断句拆分：简单通用，但易破坏表格、代码块等结构；基于AST的结构化拆分：解析语法树保留语义层次（如标题分组），实现复杂但上下文完整性更优；基于分隔符的手动拆分：可控性强，依赖人工标记，自动化程度低。其中，AST拆分采用自顶向下策略，按层级划分内容并补全标题路径，确保最小语义单元完整。附录提供了Markdow

2025-06-18 16:22:12 617

原创 html转markdown

Python库markdownify提供了将HTML转换为Markdown的功能，支持BeautifulSoup解析、高度定制化选项和常见Markdown元素转换。该工具适用于爬虫、内容迁移等场景，能够处理标题、链接、表格等HTML元素，并允许自定义标签转换规则。用户可以通过pip安装，基本用法简单，还支持表格保留HTML格式和非标准标签的特殊处理。该库提供多种配置选项，如选择标题样式、列表符号、换行方式等，使其成为HTML转Markdown的灵活解决方案。

2025-06-11 19:18:25 1511

原创 Python任务调度模型

在 Python 中，任务调度模型对系统的性能和稳定性有着关键影响。常见的调度方式包括协程（async）和多线程，它们各自适用于不同的场景，但也存在明显的利与弊：

2025-06-09 19:27:43 1008

原创 AI知识库

知识库是辅助AI模型理解和回答问题的结构化信息集合，主要功能包括补充模型知识盲区、实现检索增强生成(RAG)、提升回答相关性和存储私有知识。其工作流程分为检索和生成两个阶段：先通过向量化技术从知识库中查找相关内容，再将检索结果与问题一起输入模型生成回答。知识库包含原始数据、分片文本、向量化表示、向量存储和索引系统。文档解析时需合理拆分文本片段(chunk)，平衡大小和语义完整性，过大或过小的chunk都会影响性能。对于多模态内容，建议分离存储文本和图片信息，优化检索效果。知识库通过结合模型能力和专业知识，可

2025-05-24 15:27:05 918

原创 MinerU

MinerU 是一款功能强大的文档处理系统，能够将 PDF 和其他文档格式转换为机器可读的 Markdown 和 JSON 格式。它通过保留文档结构、准确提取内容、处理复杂布局以及转换公式和表格等特殊元素，实现高效的文档处理。系统依赖多个模型，如布局识别（Layout）、公式检测与识别（MFD、MFR）、光学字符识别（OCR）和表格识别（TableRec），并支持通过 Modelscope 和 Huggingface 下载模型文件。MinerU 提供 Windows、Linux 和 Docker 的安装方式

2025-05-20 16:26:00 1045

原创 MCP协议

MCP（Model Control Protocol）是一种基于JSON-RPC 2.0的通信协议，用于在AI模型的前端客户端和后端服务之间建立和维护连接。它通过SSE（Server-Sent Events）实现单向通信，客户端通过HTTP POST请求与服务器交互。MCP的交互流程包括建立SSE连接、初始化请求、工具列表获取和工具调用等步骤。客户端首先打开SSE连接，服务器返回包含会话ID的endpoint事件。随后，客户端发送initialize请求，服务器响应并确认连接。连接建立后，客户端可以请求工具

2025-05-15 10:01:04 1394

原创 sqlalchemy

request_id: Mapped[str] = mapped_column(String(64), comment="请求id", server_default="")client_ip: Mapped[str] = mapped_column(String(64), comment="客户端ip", server_default="")

2025-04-15 13:49:40 303

原创磁盘挂载命令

NFS (Network File System) 是一种网络文件系统协议，通过网络共享文件和目录，多个客户端可以通过 NFS 访问服务器上的文件，并可以像操作本地文件一样进行读取、写入和修改。s3fs-fuse 是一个开源的 FUSE（Filesystem in Userspace）模块，它使得 Amazon S3 存储能够像本地文件系统一样挂载并操作。Amazon S3 (Simple Storage Service) 是 Amazon Web Services (AWS) 提供的一个对象存储服务。

2025-02-26 13:46:44 524

原创 k8s优雅重启

使用kubernetes启动容器时，一般都会配置一些探针来保证pod的健康，并通过控制pod 在接收到终止信号后等待完成清理的最大时间。metadata:labels:spec:selector:template:metadata:labels:spec:ports:httpGet:port: 8080tcpSocket:port: 8080通过就绪探针和存活探针，使得容器启动就绪后才会有流量转发进来，容器故障后也能自动重启。

2025-01-23 18:55:49 1062

原创连接池偶现15分钟超时问题

RTO：RetransmissionTimeout（重传超时）。Linux2.6+的TCPRTO_MIN=200ms，RTO_MAX=120s，每次超时时间是增加1倍。每次超时时间为（秒）：0.2,0.4,0.8,1.6,3.2,6.4,12.8,25.6,51.2,102.4,120.0,120.0,……可以使用以下命令查看当前操作系统关于tcpkeepalive时长和重试的一些配置。

2025-01-20 13:09:16 941

原创 vLLM结构化输出（Guided Decoding）

语言模型的输出由模型的推理结果（logits）通过采样或其他策略生成。在结构化生成场景中，实例化一个bitmask，对模型的生成过程进行约束，确保输出符合预定义的语法规则（如 JSON 格式或特定语言的 EBNF 语法）。

2025-01-02 19:10:10 4722

原创 k8s调度策略

Binpacking策略（又称装箱问题）是一种优化算法，用于将物品有效地放入容器（或“箱子”）中，使得所使用的容器数量最少，Kubernetes等集群管理系统中，Binpacking确保容器尽可能地被分配到少数几个节点上，从而最大限度地利用节点的资源，避免资源浪费。

2024-12-11 16:39:59 911

原创 shell运维

【代码】shell运维。

2024-11-29 15:22:31 382

原创 nginx

安装完后，配置文件默认在。

2024-11-23 22:42:53 543

原创 node-saas installl失败：npm ERR! Failed at the node-sass@4.14.1 postinstall script.

可以用这个地址测试下： https://www.npmmirror.com/mirrors/node-sass/v4.14.1/linux-x64-72_binding.node。也可以尝试配置在.npmrc文件中配置sass_binary_path参数（未验证）

2024-11-19 19:18:23 1080

原创 JSON Schema

JSON Schema是一种用于描述 JSON 数据结构的规范，它提供了一种标准化的方式来定义JSON的数据格式、验证规则以及约束，使得开发者可以确保传递的数据符合预期的结构和格式。通常我们把它用来描述 OpenAPI 的入参和出参。相关文档：在 JSON Schema 中，你可以为每个属性添加 title 和 description。title：简要描述字段的名称或功能。：详细说明字段的含义、用途或额外信息。

2024-10-23 17:21:26 854

原创 Dubbo接口解析

使用注解进行服务定义@Service 注解从 3.0 版本开始就已经废弃，改用 @DubboService，以区别于 Spring 的 @Service 注解@Override使用@Service注解进行服务定义2.x版本可以使用 @Service 注解进行服务定义（注意不是spring的）@Service@Bean使用 API 启动 dubbo(DubboBootstrap.start) 时定义服务.start().await();

2024-10-17 17:16:27 619

原创 Would you like conda to send this report to the core maintainers? [y/N]:

有时候是在 Scanning installed packages，有时候是 Updating Python interpreter 操作。在遇到错误后，会提示你是否要将错误报告发送给 Conda 核心维护者。但是 PyCharm 在这里并不能处理交互。pycharm 打开项目后，底部的进度条可能会一直卡住，提示：Would you like conda to send this report to the core maintainers?禁用 conda 错误报告功能。

2024-10-17 16:03:45 1588

原创使用LlamaFactory进行模型微调

论文地址：https://arxiv.org/pdf/2403.13372仓库地址：https://github.com/hiyouga/LLaMA-Factory/tree/main。

2024-10-11 17:47:21 2292

原创 sqlalchemy时区问题

你可以用它来设置连接的初始状态，例如设置时区、字符集等。sqlalchemy查询时间字段时（包含timestamp），查询到python中使用datetime类型接收，不会进行时区类型转换，如果你的机器时区跟数据库时区不一致，就会导致比较时间时出问题。一般镜像默认的时区都是UTC，可以考虑将镜像时区和数据库连接时区都设置成UTC来解决这个问题。中获取，需要注意数据库的时区一定要跟服务器的时区一致，否则时间比较会出问题。可以利用这个方法，将时区转换成sql的时区格式(+08:00)

2024-09-27 09:52:43 1348

原创 python运维

也可以用zkCli工具，先把值内容写入文件，再执行命令：./zkCli.sh -server 127.0.0.1:2181 set /your/znode/path “

2024-09-12 09:28:15 837

原创 PydanticSerializationError: Unable to serialize unknown type: ＜class ‘pydantic.fields.FieldInfo‘＞

当你定义模型的时候，如果某个属性多了个逗号，在将json反序列化成对象的时候，就会触发pydantic这个问题。目前该问题的复现步骤是：将json反序列化成对象，再把对象序列化成json。把field2行尾多余的逗号去掉。

2024-08-27 09:18:12 2064

原创 poetry

peotry可以进行依赖管理（支持锁定版本）、虚拟环境管理，可以处理复杂的依赖关系和版本冲突，简化构建和发布。相对pip的优势：能解决版本冲突，移除某个组件会把相关依赖都移除，pip只会移除本身，导致后续包冲突可能性较大。

2024-08-06 20:23:16 681

原创 git常用操作

如果你的代理网络不允许ssh协议，会导致你使用ssh地址clone github仓库时报错。github官方的https监听也代理了ssh协议，可以参考文档：https://docs.github.com/en/authentication/troubleshooting-ssh/using-ssh-over-the-https-port。如果你想克隆的代码库提交记录过多，或者你不关心该仓库的历史提交记录，可以使用浅克隆模式。假设远端tag为0.6.15。

2024-08-04 14:11:57 377

原创 Failed to activate conda environment

查看github上文件对应的源代码：python/python-sdk/src/com/jetbrains/python/packaging/CondaExecutablesLocator.kt。可以发现它默认是从sdk path去找conda的可执行文件，但是由于我这里环境修改了env_dirs的存储目录，使其跟conda的安装路径不一致了，所以它找不到conda的可执行文件。之后则去环境变量、用户的home目录找conda的可执行文件，windows是。，但是window是装在用户home目录下的。

2024-07-25 13:53:01 1143

空空如也

空空如也