ketty641-优快云博客

原创 Python 正则表达式

正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。Python 自1.5版本起增加了re 模块，它提供 Perl 风格的正则表达式模式。re 模块使 Python 语言拥有全部的正则表达式功能。compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。re 模块也提供了与这些方法功能完全一致的函数，这些函数使用一个模式字符串做为它们的第一个参数。本章节主要介绍Python中常用的正则表达式处理函数。

2024-12-05 20:00:52 1849

原创 Standard推理部署/ 从0-1制作自定义镜像并创建AI应用

参考从容器镜像中选择元模型元模型来源：选择“从容器镜像中选择”容器镜像所在的路径：选择已制作好的自有镜像图4选择已制作好的自有镜像容器调用接口：指定模型启动的协议和端口号。请确保协议和端口号与自定义镜像中提供的协议和端口号保持一致。镜像复制：选填，选择是否将容器镜像中的模型镜像复制到ModelArts中。健康检查：选填，用于指定模型的健康检查。仅当自定义镜像中配置了健康检查接口，才能配置“健康检查”，否则会导致AI应用创建失败。apis定义：选填，用于编辑自定义镜像的apis定义。

2024-12-04 08:45:00 1177

原创 ModelArts Standard的WebSocket在线服务全流程开发

优先验证自定义镜像提供的websocket服务的情况，不同的工具实现的websocket服务会有不同，可能出现连接建立后维持不住，可能出现请求一次后连接就中断需要重新连接的情况，ModelArts平台只保证，未上ModelArts前自定义镜像的websocket的形态跟上了ModelArts平台后的websocket形态相同（除了地址跟认证方式不同）。WebSocket的客户端可以往服务端发送数据，客户端有不同的实现，同一种语言也存在不同的lib包的实现，这里不考虑实现的不同种类。

2024-12-04 08:00:00 957

原创 ModelArts Standard推理服务支持VPC直连的高速访问通道配置

登录ModelArts控制台，进入“AI专属资源池 > 弹性集群 Cluster”找到服务部署使用的专属资源池，单击“名称/ID”，进入资源池详情页面，查看网络配置信息。返回专属资源池列表，选择“网络”页签，找到专属资源池关联的网络，打通VPC。中打通的VPC，完成其他参数配置，完成高级配置并确认配置，下发购买弹性云服务器的任务。登录弹性云服务器ECS控制台，单击右上角“购买弹性云服务器”，进入购买弹性云服务器页面，完成基本配置后单击“下一步：网络配置”，进入网络配置页面，选择。查看虚拟私有云配置信息。

2024-12-03 08:00:00 1883

原创第三方推理框架迁移到ModelArts Standard推理自定义引擎

当从第三方推理框架迁移到使用ModelArts推理的AI应用管理和服务管理时，需要对原生第三方推理框架镜像的构建方式做一定的改造，以使用ModelArts推理平台的模型版本管理能力和动态加载模型的部署能力。Triton镜像中默认已存在id为1000的triton-server用户，需先修改triton-server用户名id后再增加用户ma-user，Dockerfile中执行如下命令。针对不同框架的镜像，可能还需要做额外的适配工作，具体差异请见对应框架的操作步骤。上传至model目录。

2024-12-03 07:30:00 1192

原创 Standard推理部署/ 使用自定义引擎在ModelArts Standard创建AI应用

使用自定义引擎创建AI应用，用户可以通过选择自己存储在SWR服务中的镜像作为AI应用的引擎，指定预先存储于OBS服务中的文件目录路径作为模型包来创建AI应用，轻松地应对ModelArts平台预置引擎无法满足个性化诉求的场景。使用自定义引擎创建AI应用，用户的SWR镜像、OBS模型包和文件大小需要满足以下规范：groupadd -g 100 ma-group && useradd -d /home/ma-user -m -u 1000 -g 100 -s /bin/bash ma-user

2024-12-02 08:30:00 1060

原创使用大模型在ModelArts Standard创建AI应用部署在线服务

服务部署时，默认情况下，动态加载的模型包位于临时磁盘空间，服务停止时已加载的文件会被删除，再次启动时需要重新加载。使用大模型要求用户使用自定义引擎，并开启动态加载的模式导入模型。大模型加载启动的时间一般大于普通的模型创建的服务，请配置合理的“部署超时时间”，避免尚未启动完成被认为超时而导致部署失败。使用OBS Browser+上传数据，开启MD5校验，动态加载并使用节点本地的持久化存储时，检查数据一致性。当用户使用自定义引擎时，默认开启动态加载，模型包与镜像分离，在服务部署时动态将模型加载到服务负载。

2024-12-02 08:00:00 1621

原创 Standard推理部署/ 端到端运维ModelArts Standard推理服务方案

推理服务的端到端运维流程算法开发阶段，先将业务AI数据存放到对象存储服务（OBS）中，接着通过ModelArts数据管理进行标注和版本管理，然后通过训练获得AI模型结果，最后通过开发环境构建AI应用镜像。服务运维阶段，先利用镜像构建AI应用，接着部署AI应用为在线服务，然后可在云监控服务（CES）中获得ModelArts推理在线服务的监控数据，最后可配置告警规则实现实时告警通知。业务运行阶段，先将业务系统对接在线服务请求，然后进行业务逻辑处理和监控设置。图1推理服务的端到端运维流程图。

2024-12-01 09:45:00 960

原创 ModelArts Standard推理服务访问公网部署方案

打通VPC可实现ModelArts资源池和用户VPC的网络打通。打通VPC前需要提前创建好VPC和子网，具体步骤请参考。从推理服务的算法实例内部，访问公网服务地址的方案。

2024-12-01 08:00:00 921

原创主流开源大模型基于Server适配PyTorch NPU推理指导- 语言模型推理性能测试

性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动，且输入输出长度也在一定范围内变化时，模型的延迟和吞吐。该场景能模拟实际业务下动态的发送不同长度请求，能评估推理框架在实际业务中能支持的并发数。性能benchmark验证使用到的脚本存放在代码包AscendCloud-LLM-xxx。

2024-11-30 07:30:00 1789 2

原创主流开源大模型基于Server适配PyTorch NPU推理指导-多模态模型推理性能测试

静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。性能benchmark验证使用到的脚本存放在代码包AscendCloud-LLM-xxx.zip的llm_tools/llm_evaluation目录下。代码目录如下:|--- modal_benchmark_parallel.py # modal 评测静态性能脚本。

2024-11-30 07:15:00 1134

原创主流开源大模型基于Server适配PyTorch NPU推理指导- 部署推理服务-非分离部署推理服务

本章节介绍如何使用vLLM 0.6.0框架部署并启动推理服务。什么是非分离部署全量推理和增量推理在同一节点上进行。前提条件已准备好DevServer环境，具体参考资源规格要求。推荐使用“西南-贵阳一”Region上的DevServer和昇腾Snt9b资源。安装过程需要连接互联网git clone，确保容器可以访问公网。

2024-11-29 08:15:00 2018

原创主流开源大模型基于Server适配PyTorch NPU推理指导-部署推理服务-分离部署推理服务

Prefill阶段（全量推理）将用户请求的prompt传入大模型，进行计算，中间结果写入KVCache并推出第1个token，属于计算密集型。Decode阶段（增量推理）将请求的前1个token传入大模型，从显存读取前文产生的KVCache再进行计算，属于访存密集型。分离部署场景下，全量推理和增量推理在不同的容器上进行，用于提高资源利用效率。步骤六启动全量推理实例：必须为NPU实例，用于启动全量推理服务，负责输入的全量推理。全量推理占用至少1个容器。步骤七启动增量推理实例。

2024-11-29 08:15:00 1558

原创主流开源大模型基于Server适配PyTorch NPU推理指导- 推理场景介绍

本教程需要使用到的AscendCloud-6.3.910中的AscendCloud-LLM-xxx.zip软件包和算子包AscendCloud-OPP，AscendCloud-LLM关键文件介绍如下。├── ascend_autosmoothquant_adapter # 昇腾量化使用的算子模块。├── ascend_vllm-0.6.0-py3-none-any.whl # 推理安装包。├── vllm_install.patch # 社区昇腾适配的补丁包。

2024-11-28 20:16:48 2058 3

原创在ModelArts Studio基于Llama3-8B模型实现新闻自动分类

3.英文标签共15个，可选标签如下：news_story、news_culture、news_entertainment、news_sports、news_finance、news_house、news_car、news_edu、news_tech、news_military、news_travel、news_world、stock、news_agriculture、news_game。设置模型参数/权重更新的次数。使用平台推荐的权重文件，可提高模型的训练、压缩、部署和调优等服务的使用效率。

2024-11-28 20:12:28 1415

2403_89344729的博客