- 博客(190)
- 资源 (1)
- 收藏
- 关注

原创 无人旅行概念——改变人类未来旅行方式
基于5G、VR技术以及未来的智能硬件发展,我提出足不出户便可游玩全球的的无人旅行概念,解决旅行长途奔波痛点,改变人们旅行方式。在河北武安开发无人旅行试点,于京娘湖、七步沟等景区设置观景机器人,机器人由仿人形五球轮滑动机器人以及无人机(非平地观景)两部分构成,硬件设施搭建完成后,由用户购买旅行装,主要是沉浸式头盔(后续可以加入新技术,同步真人与观景机器人动作),通过观景机器人实现千里之外就可以和景区游玩的人互动。无人旅行概念成熟之后,将中国景区概念带向全世界,颠覆外国人对中国认知,观景机器人内置翻译芯片,
2020-08-03 03:46:30
837

原创 Python实现淘宝直播自动点赞与抽奖
最近入了直播抽奖的坑,而且中了不少奖,薅羊毛事后一时爽,天天刷火葬场。于是想到用Python自动监控,直播福利是以抽奖为形式的,粉丝们在互动区疯狂发送关键字,主播随机截图,并给在截图中的粉丝送出福利。这个过程需要粉丝疯狂的点赞,以及实时盯着屏幕以防什么时候开始刷屏抽奖。如果全程亲自操作,依靠自己手动点击的话,不能解放双手,是非常拉底做事效率的。如果依靠自己盯着屏幕看,也是非常原始的做法。所以,如果能有一个自动点赞+自动窥屏的外挂将会让我们在薅羊毛的路上满载而归。鉴于之前已经有同学实现了自动挖掘抖音美女
2020-07-06 16:04:00
6750
6

原创 编译器的前端技术
编译器的“前端”技术分为词法分析、语法分析和语义分析三个部分。而它主要涉及自动机和形式语言方面的基础的计算理论。词法分析是把程序分割成一个个 Token 的过程,可以通过构造有限自动机来实现。语法分析是把程序的结构识别出来,并形成一棵便于由计算机处理的抽象语法树。可以用递归下降的算法来实现。语义分析是消除语义模糊,生成一些属性信息,让计算机能够依据这些信息生成目标代码。附:网盘里10280G的资源拿出来晒晒太阳,涉及计算机前端、后端、算法、AI、平面设计、雅思、数据分析、挖掘、考研等等之前和
2020-05-19 23:46:46
1077
2
原创 昇腾MindIE 限制非首token时延(TPOT)的极限吞吐
以Decode平均时延限制50ms以内为目标,限制非首token时延的极限吞吐的调试方式如下所示。
2025-03-26 17:31:07
317
原创 还不会function-call?看完这篇就懂了
启动推理服务,并根据当前配置修改脚本最后的model_name和端口号(85、86行处);函数调用为大模型提供了一种强大而灵活的方式来与您的代码或外部服务进行交互。服务启动后,通过python执行脚本,发起请求;使模型能够获取数据并执行操作。
2025-03-17 16:29:44
206
原创 GitLab的Dockerfile 追踪
通过以上步骤,你就可以在 GitLab 上准备每个平台的 Docker 镜像文件,并实现完整的 Dockerfile 追踪。
2025-03-11 18:22:17
316
原创 还不懂 Function Calling? 看完这篇就行
这一概念也可能被称为“工具使用” (“tool use”)。虽然有人认为“工具”是“函数”的泛化形式,但在当前,它们的区别仅在技术层面上,表现为编程接口的不同输入输出类型。大型语言模型(LLMs)确实强大。然而,有时候单靠大型语言模型的能力还是不够的。一方面,大型语言模型存在建模局限性。首先,对于训练数据中没有的信息,包括训练结束后发生的事情,它们并不了解。此外,它们通过概率方式学习,这意味着对于有固定规则集的任务,如数学计算,可能不够精确。
2025-03-11 17:35:08
957
原创 还不会构建MindIE镜像?一篇文章搞定
用于构建多平台/架构的 MindiE 镜像的脚本。用户可以根据需要准备好所需的软件包,修改相关配置并构建镜像。
2025-03-06 18:00:04
1152
原创 昇腾多模态大模型推理能力 学习,看这一篇就够了
目前昇腾的多模态大模型推理能力主要集成在MindIE推理引擎的LLM和SD组件MindIE最新版本支持的多模态模型LLaVa、Qwen-VL、internVL、internLM-XComposer2、MiniCPM-V2、MiniCPM-LLaMa3-V2.5支持多模态理解VLM模型对接服务化调度、单图url/base64。
2025-03-03 20:38:13
241
原创 MindIE 长文本推理
长序列定义为序列长度超过32K甚至可到达1M级别的文本。长序列特性的主要要求是在输入文本超长的场景下,模型回答的效果及性能也可以同时得到保障。在长序列场景下,由Attention和部分造成的显存消耗会快速的成倍增长。因此对这部分显存的优化便是长序列特性的关键技术点。其中涉及到诸如KV Cache量化,kv多头压缩,训短推长等关键算法技术。:在训练时通过较长的文本对模型的权重进行训练,从而使得模型在推理过程中对长序列输入依然可以保持良好的模型能力。
2025-03-03 20:25:02
321
原创 4*910B1のDeepSeek-R1部署
部署DeepSeek-R1模型用BF16权重进行推理至少需要4台Atlas 800I A2(864G)服务器,用W8A8量化权重进行推理则至少需要2台Atlas 800I A2 (864G)
2025-02-27 13:37:11
368
原创 MindIE 基于昇腾910B2 aarch64环境profile
MindIE镜像获取MindIE使用说明docker生成和启动编写 docker 启动脚本 start-docker.sh。
2025-02-27 13:33:10
675
原创 DeepSeek全系列全平台部署(可代部署)
部署DeepSeek-R1模型用BF16权重进行推理至少需要4台Atlas 800I A2(864G)服务器,用W8A8量化权重进行推理则至少需要2台Atlas 800I A2 (864G)由于模型权重较大,请确保您的磁盘有足够的空间放下所有权重,例如DeepSeek-R1在转换前权重约为640G左右,在转换后权重约为1.3T左右推理作业时,也请确保您的设备有足够的空间加载模型权重,并为推理计算预留空间生成模型w8a16量化权重,使用histogram量化方式,在CPU上进行运算。
2025-02-20 20:08:22
718
4
原创 昇腾910B/300I DUO/310P等 NPU环境采集文件无hccn_tool相关命令的执行结果
执行NPU环境检查文件npu_info_before.txt或npu_info_after.txt,部分命令无回显信息。
2025-01-02 10:58:53
832
原创 大模型杂记
使用高效算子和库:利用PyTorch中的高效函数(如torch.nn.functional)和第三方库(如cuDNN、Intel MKL)来加速计算。优化数据加载和预处理:使用torch.utils.data.DataLoader的多进程数据加载功能,并对数据进行适当的预处理(如归一化、数据增强)。使用内存池技术:如torch.utils.checkpoint模块中的checkpoint函数,通过重新计算中间结果来减少内存占用。模型剪枝:去除模型中不重要的连接或参数,以减小模型规模,减少内存占用和计算量。
2024-12-25 15:55:23
583
原创 Kubernetes 的本质
这样,你把 Credential 信息以 Secret 的方式存在 Etcd 里,Kubernetes 就会在你指定的 Pod(比如,Web 应用的 Pod)启动时,自动把 Secret 里的数据以 Volume 的方式挂载到容器里。上面这些基于 YAML 文件的容器管理方式,跟 Docker、Mesos 的使用习惯都是不一样的,而从 docker run 这样的命令行操作,向 kubectl apply YAML 文件这样的声明式 API 的转变,是每一个容器技术学习者,必须要跨过的第一道门槛。
2024-11-28 00:01:34
606
原创 大模型推理性能优化
KV 缓存的总大小(以字节为单位)= (batch_size) * (sequence_length) * 2 * (num_layers) * (hidden_size) * sizeof(FP16)对最大长度是 4096 的 LLaMa2-7B fp16 模型,服务端每创建 1 个并发,都需要大约 2GB 显存保存 kv_cache,即便是 A100 80G,能并发服务的用户也非常有限。次的预测数据送入模型,拿到第 i+1 次的推理token。的增加,KV-Cache 的大小。----降低带宽使用率。
2024-09-20 20:56:46
755
原创 昇腾Ascend C算子开发
构体获取Tiling信息,根据Tiling信息控制数据搬入搬出Local Memory的流程;由于Tiling实现中完成的均为标量计算,AI Core并不擅长,所以我们。Kernel实现即算子核函数实现,在Kernel函数内部通过解析Host侧传入的Tiling结。切分数据的算法称为Tiling算法或者Tiling策略。环多少次)的计算程序,称之为Tiling实现,也叫Tiling函数(Tiling。过调用计算、数据搬运、内存管理、任务同步API,实现算子逻辑。● Host侧Tiling实现。
2024-06-17 08:47:19
642
1
原创 昇腾千卡算力集群交付痛点及工具链思路
且算力场景因设备多,HW及客户的维护操作人员多,不同人员配置部署和变更调整后,其他人很难获知情况,经常需要人工校验所有设备的设备状态,软硬件版本一致性,性能,配置参数等,这些需要极大的工作量,如果只依赖于人工的命令执行和观测,是非常低效和无法保证一致性的。X1项目中现场开发了校验脚本,可以快速校验出线缆连接、信号质量、配置部署、产品状态等各方面的问题,才能快速完成线缆连接准确性和质量的整改,随时发现和纠正集群里的设备异常和配置错误,让大型集群长期处于最佳状态,保障后续模型训练能够长稳运行。
2024-03-20 09:41:16
1088
原创 蓉转京阶段小感
下午从京东方参观回来,想起许久未见的昊兄,想着给他发个消息。刚走进办公室,就看着微信一个黑的头像框,点开仔细一看,竟是昊兄,说下周来北京工作,这种鬼使神差的感觉仿佛把我带回初中时,那时所做所想真确如有神助。我本身并不主动,但总有一些奇妙的外界力量助推我心之所想。如与帅去北大,想昊时下七楼。世界真的很奇妙,很多冥冥之中的安排,犹如阳明心学中的心之感、神为发。古哲依旧是治愈我心的良药,无我、无他、无花无叶无世界。心态有起有落,趋于平和(阳明心学)阳明融入python更是一种大成。心实则万物可成,无悲欢之苦乐。
2024-03-18 14:53:41
277
原创 基于昇腾910B搭建多节点K8s集群
自从 2013 年 Docker 诞生以来,容器一跃成为 IT 界最热门的话题。而 Kubernetes 趁着容器的东风,击败众多竞争对手,成为了“容器编排”领域的King。可以说,现在 Kubernetes 已经没有了实际意义上的竞争对手,它的地位就如同 Linux 一样,成为了事实上的云原生操作系统,是构建现代应用的基石。
2024-01-11 20:52:22
3060
2
原创 MindSpore Serving基于昇腾910B实现大模型部署
大模型时代,作为一个开发人员更多的是关注一个大模型如何训练好、如何调整模型参数、如何才能得到一个更高的模型精度。而作为一个整体项目,只有项目落地才能有其真正的价值。那么如何才能够使得大模型实现落地?如何才能使大模型项目中的文件以app的形式呈现给用户?MindSpore Serving就是为了实现将大模型部署到生产环境而产生的。MindSpore Serving是一个轻量级、高性能的服务模块,旨在帮助MindSpore开发者在生产环境中高效部署在线推理服务。
2024-01-10 01:38:37
2215
1
原创 MindSpore Serving与TGI框架 の 对比
MindSpore Serving是一款轻量级、高性能的服务工具,帮助用户在生产环境中高效部署在线推理服务。使用MindSpore完成模型训练>导出MindSpore模型,即可使用MindSpore Serving创建该模型的推理服务。MindSpore Serving包含以下功能:支持自定义关于模型的预处理和后处理,简化模型的发布和部署。支持batch功能,包含多个实例的请求会被拆分组合以满足模型batch size的需要。支持分布式模型推理功能。
2024-01-04 21:46:11
1399
原创 基于TGI的大模型推理框架适配之昇腾部署
优势支持 continuous batching支持flash-attention 和 Paged Attention支持Safetensors 权重加载支持部署 GPTQ 模型服务(量化)Router和Server是最重要的组件若干个客户端同时请求Web Server的“/generate”服务后,服务端会将这些请求在“Buffer”组件处整合为Batch,并通过gRPC协议转发请求给GPU推理引擎进行计算生成。
2024-01-03 19:43:31
3221
原创 LangChain与昇腾
正是因为LangChain连接了开发者和复杂的LLM应用,因此,开发变得更为简单、高效。越来越多的开发者,不论是LLM领域的还是非LLM领域的,都选择使用LangChain。现代软件工程宗旨:将庞大复杂的系统划分为更小、更易于管理和使用的部分LangChain以**“组件”** 和 **“链”**作为2个关键概念,为LLM应用开发者提供了便利。
2024-01-03 19:16:00
1478
原创 国产Euler(欧拉)系统安装docker
按“Esc”键,输入:wq!,按“Enter”保存并退出编辑。将解压后目录中的文件移动到“/usr/bin”下。配置docker.service文件。编辑docker.service文件。启动Docker服务进程。解压Docker安装包。
2023-12-04 16:51:27
799
原创 深度学习名词总结
SPMD(Single Program, Multiple Data)是一种并行程序设计的模型,主要思想是使用同一个程序在多个处理器上并行执行,但每个处理器执行程序时处理不同的数据。SPMD模式下,同一个程序复制到不同处理器,通过进程/线程ID区分各自的数据。程序员主要编写串行代码,编译器和运行时系统负责生成并行执行代码。SPMD更适合于数据并行的应用,例如处理大规模矩阵、物理模拟等科学计算。MPI就是一种典型的SPMD模式的并行编程框架。
2023-11-14 08:22:43
1067
原创 GPU编程
GPU编程既要考虑CPU硬件也要考虑GPU硬件。这种编程称为代码从CPU上开始执行,遇到需要大量并行化的部分,再到GPU上并行,然后将结果返还给CPU再进行其他可能的计算。
2023-11-14 01:27:14
382
原创 深度学习准召
准确率(Precision)和召回率(Recall)是两个用来评价一个模型的好坏的指标,它们有不同的意义:准确率(Precision):准确率是在所有被模型判断为正例的样本中,有多少是真正的正例。换句话说,它测量了模型的精度,即模型做出的正的。大白话:准确率告诉我们,当模型说某个样本是正例时,有多大概率它真的是正例。高准确率表示模型很少会错误地把负例错分成正例,但它可能。召回率(Recall):召回率是在所有真正的正例中,有多少被模型成功地找出来。它衡量了模型的查全率,即模型有多大概率。
2023-11-10 11:09:03
821
原创 Ubuntu部署docker及docker常用操作
然后注销并重新登录以应用更改。这将允许您以当前用户的身份运行docker命令,而不需要sudo权限。
2023-10-25 21:16:58
622
System3.0.exe
2020-05-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人