Zain Lau-优快云博客

原创 linux新M2固态挂载

深度学习一些huggingface的权重和数据集

2024-01-03 09:40:38 879

基于5G、VR技术以及未来的智能硬件发展，我提出足不出户便可游玩全球的的无人旅行概念，解决旅行长途奔波痛点，改变人们旅行方式。在河北武安开发无人旅行试点，于京娘湖、七步沟等景区设置观景机器人，机器人由仿人形五球轮滑动机器人以及无人机（非平地观景）两部分构成，硬件设施搭建完成后，由用户购买旅行装，主要是沉浸式头盔（后续可以加入新技术，同步真人与观景机器人动作），通过观景机器人实现千里之外就可以和景区游玩的人互动。无人旅行概念成熟之后，将中国景区概念带向全世界，颠覆外国人对中国认知，观景机器人内置翻译芯片，

2020-08-03 03:46:30 837

原创 Python实现淘宝直播自动点赞与抽奖

最近入了直播抽奖的坑，而且中了不少奖，薅羊毛事后一时爽，天天刷火葬场。于是想到用Python自动监控，直播福利是以抽奖为形式的，粉丝们在互动区疯狂发送关键字，主播随机截图，并给在截图中的粉丝送出福利。这个过程需要粉丝疯狂的点赞，以及实时盯着屏幕以防什么时候开始刷屏抽奖。如果全程亲自操作，依靠自己手动点击的话，不能解放双手，是非常拉底做事效率的。如果依靠自己盯着屏幕看，也是非常原始的做法。所以，如果能有一个自动点赞+自动窥屏的外挂将会让我们在薅羊毛的路上满载而归。鉴于之前已经有同学实现了自动挖掘抖音美女

2020-07-06 16:04:00 6750 6

原创编译器的前端技术

编译器的“前端”技术分为词法分析、语法分析和语义分析三个部分。而它主要涉及自动机和形式语言方面的基础的计算理论。词法分析是把程序分割成一个个 Token 的过程，可以通过构造有限自动机来实现。语法分析是把程序的结构识别出来，并形成一棵便于由计算机处理的抽象语法树。可以用递归下降的算法来实现。语义分析是消除语义模糊，生成一些属性信息，让计算机能够依据这些信息生成目标代码。附：网盘里10280G的资源拿出来晒晒太阳，涉及计算机前端、后端、算法、AI、平面设计、雅思、数据分析、挖掘、考研等等之前和

2020-05-19 23:46:46 1077 2

原创昇腾MindIE 限制非首token时延（TPOT）的极限吞吐

以Decode平均时延限制50ms以内为目标，限制非首token时延的极限吞吐的调试方式如下所示。

2025-03-26 17:31:07 317

原创 vllm の Dockerfile学习

【代码】vllm の Dockerfile学习。

2025-03-25 17:27:49 108

原创还不会function-call？看完这篇就懂了

启动推理服务，并根据当前配置修改脚本最后的model_name和端口号（85、86行处）；函数调用为大模型提供了一种强大而灵活的方式来与您的代码或外部服务进行交互。服务启动后，通过python执行脚本，发起请求；使模型能够获取数据并执行操作。

2025-03-17 16:29:44 206

原创大模型的webui

【代码】大模型的webui。

2025-03-15 15:13:34 222

原创 GitLab的Dockerfile 追踪

通过以上步骤，你就可以在 GitLab 上准备每个平台的 Docker 镜像文件，并实现完整的 Dockerfile 追踪。

2025-03-11 18:22:17 316

原创还不懂 Function Calling？看完这篇就行

这一概念也可能被称为“工具使用” (“tool use”)。虽然有人认为“工具”是“函数”的泛化形式，但在当前，它们的区别仅在技术层面上，表现为编程接口的不同输入输出类型。大型语言模型（LLMs）确实强大。然而，有时候单靠大型语言模型的能力还是不够的。一方面，大型语言模型存在建模局限性。首先，对于训练数据中没有的信息，包括训练结束后发生的事情，它们并不了解。此外，它们通过概率方式学习，这意味着对于有固定规则集的任务，如数学计算，可能不够精确。

2025-03-11 17:35:08 957

原创还不会构建MindIE镜像？一篇文章搞定

用于构建多平台/架构的 MindiE 镜像的脚本。用户可以根据需要准备好所需的软件包，修改相关配置并构建镜像。

2025-03-06 18:00:04 1152

原创昇腾带宽不知道怎么测？看这一篇就够了

带宽测试主要用于测试总线带宽、内存带宽和时延。

2025-03-06 10:10:21 827

原创还不会多模态大模型？看这一篇就够了

hh

2025-03-05 20:42:56 235

原创昇腾多模态大模型推理能力学习，看这一篇就够了

目前昇腾的多模态大模型推理能力主要集成在MindIE推理引擎的LLM和SD组件MindIE最新版本支持的多模态模型LLaVa、Qwen-VL、internVL、internLM-XComposer2、MiniCPM-V2、MiniCPM-LLaMa3-V2.5支持多模态理解VLM模型对接服务化调度、单图url/base64。

2025-03-03 20:38:13 241

原创昇腾系列芯片命名搞不清？看这一篇就够了！！！

Ascend310（基本淘汰）

2025-03-03 20:35:32 1598

原创 MindIE 长文本推理

长序列定义为序列长度超过32K甚至可到达1M级别的文本。长序列特性的主要要求是在输入文本超长的场景下，模型回答的效果及性能也可以同时得到保障。在长序列场景下，由Attention和部分造成的显存消耗会快速的成倍增长。因此对这部分显存的优化便是长序列特性的关键技术点。其中涉及到诸如KV Cache量化，kv多头压缩，训短推长等关键算法技术。：在训练时通过较长的文本对模型的权重进行训练，从而使得模型在推理过程中对长序列输入依然可以保持良好的模型能力。

2025-03-03 20:25:02 321

原创 4*910B1のDeepSeek-R1部署

部署DeepSeek-R1模型用BF16权重进行推理至少需要4台Atlas 800I A2（864G）服务器，用W8A8量化权重进行推理则至少需要2台Atlas 800I A2 (864G)

2025-02-27 13:37:11 368

原创 MindIE 基于昇腾910B2 aarch64环境profile

MindIE镜像获取MindIE使用说明docker生成和启动编写 docker 启动脚本 start-docker.sh。

2025-02-27 13:33:10 675

原创 DeepSeek全系列全平台部署（可代部署）

部署DeepSeek-R1模型用BF16权重进行推理至少需要4台Atlas 800I A2（864G）服务器，用W8A8量化权重进行推理则至少需要2台Atlas 800I A2 (864G)由于模型权重较大，请确保您的磁盘有足够的空间放下所有权重，例如DeepSeek-R1在转换前权重约为640G左右，在转换后权重约为1.3T左右推理作业时，也请确保您的设备有足够的空间加载模型权重，并为推理计算预留空间生成模型w8a16量化权重，使用histogram量化方式，在CPU上进行运算。

2025-02-20 20:08:22 718 4

原创昇腾910B/300I DUO/310P等 NPU环境采集文件无hccn_tool相关命令的执行结果

执行NPU环境检查文件npu_info_before.txt或npu_info_after.txt，部分命令无回显信息。

2025-01-02 10:58:53 832

原创大模型杂记

使用高效算子和库：利用PyTorch中的高效函数（如torch.nn.functional）和第三方库（如cuDNN、Intel MKL）来加速计算。优化数据加载和预处理：使用torch.utils.data.DataLoader的多进程数据加载功能，并对数据进行适当的预处理（如归一化、数据增强）。使用内存池技术：如torch.utils.checkpoint模块中的checkpoint函数，通过重新计算中间结果来减少内存占用。模型剪枝：去除模型中不重要的连接或参数，以减小模型规模，减少内存占用和计算量。

2024-12-25 15:55:23 583

原创 Kubernetes 的本质

这样，你把 Credential 信息以 Secret 的方式存在 Etcd 里，Kubernetes 就会在你指定的 Pod（比如，Web 应用的 Pod）启动时，自动把 Secret 里的数据以 Volume 的方式挂载到容器里。上面这些基于 YAML 文件的容器管理方式，跟 Docker、Mesos 的使用习惯都是不一样的，而从 docker run 这样的命令行操作，向 kubectl apply YAML 文件这样的声明式 API 的转变，是每一个容器技术学习者，必须要跨过的第一道门槛。

2024-11-28 00:01:34 606

原创 ThreeNN算子の昇腾优化

Ascend C

2024-09-25 18:00:12 362

原创大模型推理性能优化

KV 缓存的总大小（以字节为单位）= （batch_size） * （sequence_length） * 2 * （num_layers） * （hidden_size） * sizeof（FP16）对最大长度是 4096 的 LLaMa2-7B fp16 模型，服务端每创建 1 个并发，都需要大约 2GB 显存保存 kv_cache，即便是 A100 80G，能并发服务的用户也非常有限。次的预测数据送入模型，拿到第 i+1 次的推理token。的增加，KV-Cache 的大小。----降低带宽使用率。

2024-09-20 20:56:46 755

原创昇腾Ascend C算子性能优化

之。

2024-09-20 17:11:44 1236

原创昇腾Ascend C算子开发

构体获取Tiling信息，根据Tiling信息控制数据搬入搬出Local Memory的流程；由于Tiling实现中完成的均为标量计算，AI Core并不擅长，所以我们。Kernel实现即算子核函数实现，在Kernel函数内部通过解析Host侧传入的Tiling结。切分数据的算法称为Tiling算法或者Tiling策略。环多少次）的计算程序，称之为Tiling实现，也叫Tiling函数（Tiling。过调用计算、数据搬运、内存管理、任务同步API，实现算子逻辑。● Host侧Tiling实现。

2024-06-17 08:47:19 642 1

原创心即理、知行合一、致良知 with python

无善无恶是心之体，有善有恶是意之动，知善知恶是良知，为善去恶是格物。

2024-03-20 14:59:31 334

原创昇腾千卡算力集群交付痛点及工具链思路

且算力场景因设备多，HW及客户的维护操作人员多，不同人员配置部署和变更调整后，其他人很难获知情况，经常需要人工校验所有设备的设备状态，软硬件版本一致性，性能，配置参数等，这些需要极大的工作量，如果只依赖于人工的命令执行和观测，是非常低效和无法保证一致性的。X1项目中现场开发了校验脚本，可以快速校验出线缆连接、信号质量、配置部署、产品状态等各方面的问题，才能快速完成线缆连接准确性和质量的整改，随时发现和纠正集群里的设备异常和配置错误，让大型集群长期处于最佳状态，保障后续模型训练能够长稳运行。

2024-03-20 09:41:16 1088

原创蓉转京阶段小感

下午从京东方参观回来，想起许久未见的昊兄，想着给他发个消息。刚走进办公室，就看着微信一个黑的头像框，点开仔细一看，竟是昊兄，说下周来北京工作，这种鬼使神差的感觉仿佛把我带回初中时，那时所做所想真确如有神助。我本身并不主动，但总有一些奇妙的外界力量助推我心之所想。如与帅去北大，想昊时下七楼。世界真的很奇妙，很多冥冥之中的安排，犹如阳明心学中的心之感、神为发。古哲依旧是治愈我心的良药，无我、无他、无花无叶无世界。心态有起有落，趋于平和（阳明心学）阳明融入python更是一种大成。心实则万物可成，无悲欢之苦乐。

2024-03-18 14:53:41 277

System3.0.exe

空空如也