- 博客(228)
- 资源 (1)
- 收藏
- 关注
原创 5 步教你创建大模型自定义插件
我们以万相文生图 V2 版模型为例,构建一个文生图的自定义插件,并将该插件应用在工作流中。先来看下万相 2.1 文生图效果,语义理解更加准确,效果更好,支持任意分辨率和比例,更多信息,可以百炼的官方文档:查看文档[2]。选择应用组件-自定义插件,新建自定义插件,并填写相关参数。🚩 Authorization 对应的 Bearer 信息。格式为:Bearer APIKEY,API KEY 右上角点头像可以查看。🚩 插件 URL:至于参数为啥这么填?是因为官方文档中,这个模型就是这么调用的。
2025-03-21 10:24:39
334
原创 大模型推理框架 RTP-LLM Embedding 技术揭秘
我们基于 RTP-LLM 实现了 Embedding 框架,支持部署 Transformer 结构的 Embedding 模型及其下游任务(Reranker/Classifier),在请求上支持 HTTP/ARPC/GRPC 协议,在部署上支持用户使用 SentenceTransformer 自定义后处理逻辑。Embedding 引擎已服务了淘宝主搜等多个在离线场景,并成功度过双十一洪峰。
2025-03-20 10:17:49
1015
原创 一招解决数据库中报表查询慢的痛点
DuckDB【1】【2】是一款面向嵌入式分析场景的高性能开源列式关系型数据库,专注于复杂 SQL 查询的加速与大规模数据分析(OLAP)。该项目由荷兰国家数学与计算机科学研究院(CWI)的 Mark Raasveldt 和 Hannes Mühleisen 主导开发,于 2019 年正式开源,凭借其卓越的 AP 性能与轻量级设计,迅速成为数据科学和边缘计算领域的热门选择,月下载量超百万次。
2025-03-12 10:14:57
759
原创 一文读懂!多语言大模型数据研发在大模型时代的实战全解
从 2022.11.30 OpenAI 发布 ChatGPT 3.0 后,大模型呈现大爆炸式发展,AI 的重要性一下子大提升,经历了拉资源、AI 创业公司、大厂提升到战略高度、百模大战、大规模推理应用。而这一切都离不开数据,训练数据成为模型效果的核心要素之一。在 AICon(全球人工智能开发与应用大会)也经常会有大模型数据相关专题技术分享。
2025-02-12 10:00:30
861
原创 提示词工程的十大认知误区
提示词工程是和大语言模型沟通的桥梁,是一门关于提问的艺术。尽管看似简单,但在实际应用中却充满挑战。我们需要深入理解模型的能力和局限性,并根据不同的场景灵活调整提示词设计,以实现最佳效果。提示词工程的核心不在于复杂的框架或大量的示例,而在于如何精准传达任务需求,并通过持续优化提高模型表现。避免常见误区,掌握提示词工程的核心技巧,能够帮助我们更好地利用大模型的潜力。同时,重视用户输入的质量以及不断调优提示词的能力,也是提示词工程成功的关键。
2025-02-07 09:50:53
902
原创 1 行命令引发的 Go 应用崩溃
以上就是 Go 自动插桩工具在使用 go build -race 时出现崩溃的分析全过程。通过对崩溃内容和调用链的排查,我们找到了产生问题的根本原因以及相应的解决方案。这将有助于我们在理解运行时机制的基础上,更加谨慎地编写注入到运行时的代码。
2025-01-17 10:05:50
1271
原创 OpenAI 故障复盘 - 阿里云容器服务与可观测产品如何保障大规模 K8s 集群稳定性
Kubernetes(K8s)架构已经是当今 IT 架构的主流与事实标准(CNCF Survey[1])。随着承接的业务规模越来越大,用户也在使用越来越大的 K8s 集群。Kubernetes 官方建议的最大集群规模是 5000 节点。甚至,如 OpenAI 通过技术优化,曾将 K8s 集群扩展至 7500 节点(Scaling Kubernetes to 7,500 nodes[2])。这种千级别节点的大规模 K8s 集群,会容易引起分布式系统内部瓶颈,但也增加了系统的脆弱性。
2025-01-08 11:20:19
1162
原创 如何提升大模型的“深度思维能力”
人类的思考可以是瞬间的,也可以是漫长的,尤其在面对棘手问题时,人类需要更多时间。这种特性大大提升了人类思维的潜力。当我们面临困难问题时,人类会尝试“分析-反思-创新”的链条,从而花费很长的时间来获得更为可信的答案(亦或是更美的答案,这是另一个问题,暂时不在本章中讨论)。从大模型的计算过程而言,我们很难相信它能够不经过思维过程的训练就获得思维能力,事实上我们可以认为,大模型获得思维能力的最佳路径也是通过显性的文字(或者图像)来完成,深化大模型的思维能力,一个可能而合理的手段是通过模拟思考。
2024-12-26 14:23:30
1563
原创 HNSW 分布式构建实践
文章总结了HNSW算法在大规模向量检索中的应用挑战及优化方案,特别是通过分布式构建和分治策略显著提高了索引构建效率和查询性能。
2024-12-11 10:11:51
1262
原创 关于大模型语料的迷思
人类对语言的理解,不仅仅是沟通的工具,更是感知世界的方式。20 世纪哲学家路德维希·维特根斯坦曾提出:“语言的界限即是世界的界限。”在他的观点中,语言不仅是传递信息的媒介,更是人类思想和意识的边界所在。我们通过语言表达想法,交流信息,描述世界,思考未来。正因如此,语言成为了探索智能问题的核心。如果存在一个语言中没有的概念,我们甚至难以意识到它的存在,亦或者如果它存在我们一定会尝试对其定义,这也就保证了存在的概念一定存在于语言中。
2024-11-20 14:04:56
755
原创 白话文讲解大模型| Attention is all you need
2017/06/12Google、多伦多大学所有 LLM 的始祖,迈向 NLP 新时代的基础架构传统的序列转换模型使用复杂的循环或卷积神经网络,包括编码器和解码器。表现最好的模型会透过注意力机制连接编码器和解码器。作者团队提出了一种新的简单网络结构,Transformer,完全基于注意力机制,不再使用循环和卷积。在两个机器翻译任务上进行实验,发现这些模型在质量上的表现优越,并且更容易进行平行运算,训练所需时间明显减少。
2024-11-07 11:04:33
830
原创 NativeCrash 率从万分位降到十万分位,我做了这几件事...
在App开发过程中,崩溃率是衡量App稳定性的关键指标。因为App崩溃不仅仅影响用户的即时体验,更对用户留存率构成了潜在的威胁。它如同一颗隐形的定时炸弹,随时可能引发用户体验的灾难。App崩溃分为Java Crash和Native Crash 2种。
2024-10-25 11:13:18
1005
原创 从一个事故中理解 Redis(几乎)所有知识点
从上面的例子可以看出,Redis 的内存几乎被缓冲区占用殆尽。以下是具体的结论:当前内存使用 (used_memory) 已经接近最大内存限制 (maxmemory),即 1.02 GB 接近 1.00 GB 的限制。内存开销 (used_memory_overhead) 很大,主要被客户端普通连接使用(可能是输出缓冲区),而实际的数据仅占用了很少的内存。分配器和 RSS 碎片率 (allocator_frag_ratio 和 mem_fragmentation_ratio) 较低,表明碎片不是问题。
2024-10-16 17:30:42
1366
原创 Web 性能优化|了解 HTTP 协议后才能理解的预加载
在性能优化过程中,开发者通常会集中精力在以下几个方面:服务器响应时间(RT)优化、服务端渲染(SSR)与客户端渲染优化、以及静态资源体积的减少。然而,对于许多用户进入网站的第一个页面(如首页),网络开销也是一个不容忽视的问题。由于新用户可能从未与网站建立连接,从 DNS 查询到 TCP 连接,再到下载服务器返回的内容,这些步骤的耗时通常远远超过服务器的响应时间。而多数情况下开发者无法通过代码优化来减少这部分时间消耗。
2024-10-08 10:42:12
1229
原创 如何让 Android 的前端页面像 iOS 一样“优雅”?
总的来说,Android 端对前端 Safe Area 的支持其实就只是简单的把端上的 WindowInsets 中的 DisplayCutout 抛给了前端,只是其实现的方式不太优雅。首先 View 只支持设置一个 OnApplyWindowInsetsListener 监听,这又是个公开方法,指望业务层完全不去碰这个方法是不可能的,也就导致了在实际使用时 safe-area-inset-* 属性总是会"莫名其妙"的失效。
2024-09-27 15:10:01
2033
原创 架构设计的悖论,复用是美好的还是邪恶的
错误的抽象、错误的代码复用,所引发的复杂性无限蔓延,对系统的危害比面条代码强大一百倍。复用与扩展,业务与技术,到底哪些该复用哪些不该复用,好像变成了一个哲学问题。如果说“正确的抽象”是一个 100 分的美丽乌托邦,那面向复杂性隔离的整洁架构,会不会是一个稳定的 80 分。面向复杂性隔离的整洁架构,我好像有了一些新的想法... To Be Continue。
2024-09-18 09:59:18
1294
原创 每日必抢小程序下单总结
首先,小程序是没有一个标准化的组织,随着时间推移,各家小程序(微信,支付宝、抖音等)的差异肯定是越来越大,像 Rax 这类的跨端框架需要“抹平”的成本会越来越高。而且抹平一般会采用交集的方式进行抹平,会导致我们无法利用到各个小程序平台的最全能力。跨端框架拥有“Write Once, Run everywhere”的好处,对于 0 到 1 探索阶段的项目比较适合,可以快速铺到各个市场,但是无法适用于每日必抢这类对性能、体验、深入融合各端生态有着高要求的项目,基于此我们还是决定拥抱原生建设下单方案。
2024-09-14 10:23:24
799
原创 大模型推理框架 RTP-LLM 架构解析
我们首先对 RTP-LLM,该系统由多个层次组成,从最外层的到最内层的AsyncModel,每一层都有特定的职责。
2024-09-04 16:36:06
4880
原创 我们写的代码是如何被用户看到的——前端篇
用户在浏览器地址输入 URL 之后发生了什么?这个问题对于我们前端开发者来说简直是典中典了,是前端基础,也是工作面试八股,更是性能优化依据。但本文想分享的重点不是之后发生了什么,而是之前发生了什么,即我们平时码出来的代码经历了哪些步骤处理,成为互联网用户能打开浏览的页面的?我们又是如何合理的更新网页的?前一个问题涉及开发与部署,后一个问题涉及发布。下面我将会从网页入口、开发、部署与发布这 4 方面逐步展开分享。
2024-08-30 14:14:53
1118
原创 “JVM” 上的 AOP:Java Agent 实战
说起 AOP 的实现方式,大家可能第一时间想到的是 Spring AOP。Spring AOP 通过封装 Cglib 和 JDK 动态代理的相关逻辑,提供给我们方便的途径来生成动态代理对象,从而轻松实现方法执行前后的切面逻辑。很多常见的日志框架、权限校验框架(Apache Shiro)、RPC 调用框架(Apache Dubbo)的切面逻辑都是通过集成 Spring AOP 来实现的。
2024-08-16 10:30:06
1154
原创 深入理解 RDMA 的软硬件交互机制
随着数据中心的飞速发展,高性能网络不断挑战着带宽与时延的极限,网卡带宽从过去的 10 Gb/s 、25 Gb/s 到如今的 100 Gb/s、200 Gb/s 再到下一代的 400Gb/s 网卡,其发展速度已经远大于 CPU 发展的速度。为了满足高性能网络下的通信需求,阿里云不仅自研了高性能用户态协议栈 (Luna、Solar) ,也大规模使用了 RDMA 技术,以充分利用高性能网络。尤其是在存储和 AI 领域,RDMA 被广泛使用。
2024-08-07 10:04:23
1818
原创 测试环境领域到测试环境产品
目前的测试环境实践部分方案是基于当前的现状做了局部最优的选择,并非终态方案。有些在已有的基础上做的升级,有些依赖于架构治理的妥协选择:Stable 环境稳定可靠最核心方案应该是运维等级等同于线上,如与线上一同发布、机器规格、部署策略、操作管控等。这方面能力淘天集团前几年已经完成相关的升级。可观测系统对长尾技术栈需要按部就班的接入,如果所有架构统一,也就无需多余的投入。动态配置产品在分支隔离和使用规范上做到极致,其实也无需配置巡检。
2024-07-31 14:08:00
484
原创 LLM 推理加速:decode 阶段的 Attention 在 GPU 上的优化
随着大语言模型(Large Language Models,LLMs)在各领域的广泛应用,如何以低成本构建高吞吐、低延迟的推理服务成为了一个紧迫的问题。考虑到 LLM 在 GPU 上推理时参数量和计算量较大以致于单流执行就可以充分利用 GPU 资源,我们可以把 LLM 的推理延时分解到 kernel level,因此,进一步的,不考虑时间占比小的 kernel 计算后,LLM 的延时优化也就相应的分解成 GEMM 和 Attention 的 kernel 优化。
2024-07-26 10:15:58
1401
原创 什么?for 循环也会出问题?
初来乍到的笃某不假思索,对方法入参内的列表使用了排序大法,通过实现 compare 接口,对应两个 Detail 的修改时间,便很轻松的获取到了想要的值。
2024-07-19 10:18:52
950
原创 微软最新 WiFi 远程代码执行漏洞(CVE-2024-30078)探究
从函数的名称 Dt11Translate80211ToEthernetNdisPacket 可以推测,这个函数用于处理 802.11 数据包。802.11 是一种无线局域网的标准,而 WiFi 是 802.11 标准的一种产品实现。用 IDA 反编译函数,发现补丁是增加了一处对数值的比较,如果不满足条件则返回 NDIS_STATUS_INVALID_PACKET(0xc001000),即数据包非法。调用层次图表明,函数会在接收到 802.11 数据包时被调用。
2024-07-17 09:58:42
1614
原创 异步日志:性能优化的金钥匙
前面提到了 Log4j2 的高可扩展性,同时 Log4j2 的性能也是极高的,下面是 Log4j2 官方的 benchmark 数据,仅供参考:Log4j2 之所以性能如此之高,其中一个很重要的原因就是其。
2024-07-12 10:46:28
1564
原创 FlinkSQL 开发经验分享
FlinkSQL 的开发是最方便高效的实时数据需求的实现途径,但是它和离线的 ODPS SQL 开发在底层的机制和原理上还是有很大的区别,根本的区别就在于流和批的处理。如果按照我们已经习惯的离线思维来写 FlinkSQL,就可能会出现一些“离奇”的结果,但是遇到问题并不可怕,要始终相信根本不存在任何“离奇”,所有的问题都是可以追溯到原因的,而在这个探索的过程中,也可以学习到许多知识,所以让我们遇到更多的问题,积累更多的经验,熟练地应用 Flink。
2024-07-03 09:38:07
1814
2
原创 奇怪的缓存一致性问题
为了使各应用职责及整体的架构设计更加清晰,Push 中心整体将后台配置端和前台投放端分别部署在了两个应用中,两个应用需要分别配置数据库连接,分别配置缓存。数据一致性问题是我们在工程实践中经常遇到的一种问题,了解常见的解决方案,可以帮助我们有效解决该问题,更好地满足业务诉求。本文讲了那么多,到底哪种方案更好呢?是不是强一致性就是最优解?其实不存在绝对的“哪种方案更好”,只有最适合当前系统特性和业务需求的方案。
2024-06-28 09:57:22
1057
原创 一次压测引发的数据库 CPU 飙升
一次压测过程中,当数据库的 qps 和 tps 都正常时,如果 cpu 利用率异常的高,应该如何排查?希望通过这篇文章,给你一些启发...
2024-06-21 10:13:45
1137
原创 从源码分析 vllm + Ray 的分布式推理流程
随着 LLM 模型越来越大,单 GPU 已经无法加载一个模型。以 Qwen-14B-Chat 模型为例,模型权重大概 28GB,但是单个 NVIDIA A10 仅有 24GB 显存。如果想要在 A10 上部署 Qwen-14B-Chat 模型,我们需要将模型切分后部署到 2 个 A10 机器上,每个 A10 卡加载一半的模型,这种方式称之为分布式推理。社区涌现了很多支持分布式推理的框架如 vllm、deepspeed-mii,rtp-llm 等。
2024-06-12 10:34:02
7914
1
原创 Master-Worker 架构的灰度发布难题
Master-Worker 架构是成熟的分布式系统设计模式,具有集中控制、资源利用率高、容错简单等优点。我们数据中心内的几乎所有分布式系统都采用了这样的架构。我们曾经发生过级联故障,造成了整个集群范围的服务中断。这让我们反思到 Master-Worker 架构难以有效的分批灰度发布的问题。本文试图分析其中原因,并尝试提出几种解决方案。防范集群范围的级联故联是分布式系统中的难题。本文提出了三种方法,但它们都有各自的局限。
2024-06-05 13:57:47
1069
原创 如何优雅地编写缓存代码
在日常的编码实践中,经常会用到缓存来解决高并发问题,缓存可以说是解决流量洪峰的不二利器。虽然集团中间件团队已经构建了缓存的基础设施,已经帮助我们解决了绝大部分问题,但是在实际的编码使用过程中,应用端调用缓存 API 时还是存在下述几类问题:使用缓存的逻辑非常通用,基本都是先查缓存,有直接返回,没有查 DB,再放入缓存中。这段通用逻辑散落在系统的各个地方,违反了高内聚低耦合的原则。缓存代码和业务逻辑代码深度耦合在一起,不仅降低了代码的可读性,还额外增加了系统复杂度。
2024-05-22 14:41:07
699
原创 上海交大携手阿里巴巴成立人工智能与系统联合实验室
张瓅玶(谷朴)介绍了联合实验室的成立目标与组织架构,表示阿里巴巴将全力支持联合实验室的建设与发展,期待双方共同努力,产出更多具有影响力的科研成果,为阿里巴巴的业务创新提供有力支撑,并成为双方在 AI 与系统领域创新合作与人才交流的桥梁。复旦大学计算机学院薛向阳教授带来了题为《基于重构的组成式视觉场景表示学习》的学术报告,从视觉场景建模和组成式表示推断的角度,分享了基于重构的深度神经网络组成式场景表示学习的当前进展。
2024-05-15 10:47:38
1319
原创 浅谈现代消息队列与云存储
1970 年代末,消息系统用于管理多主机的打印作业,这种削峰解耦的能力逐渐被标准化为“点对点模型”和稍复杂的“发布订阅模型”,实现了数据处理的分布式协同。随着时代的发展,Kafka,Amazon SQS,RocketMQ,Azure Service Bus,Google Pub/Sub,RabbitMQ 等众多产品为开发者在不同业务场景下提供了富有竞争力的解决方案,并扩展出顺序,事务,定时消息,精确一次投递等丰富的语义和特性,让消息系统成为分布式系统中的标准组件。
2024-05-10 14:08:26
1347
原创 世界读书日|看看阿里内部的技术大牛们推荐了什么书?
AI 时代,技术呈指数级发展,我们越来越关注,如何持续学习提升,跟上时代的步伐。刚好借着世界读书日的契机,我们邀请了阿里内部的技术大牛们,分享他们在 AI 时代持续学习的过程中,推荐的一些内容。这其中的每一本书,都带有推荐者深刻的感悟与独到的见解。在这个春意正浓的季节,期待与你重逢在阅读的旅程中。
2024-04-24 09:44:56
655
原创 如何爬出 Kotlin 协程死锁的坑?
/ 这段代码将死锁到天荒地老final ExecutorService executorService = Executors.newSingleThreadExecutor();相比别的死锁问题, 这一类问题的坑点在于, 因为线程池的实现问题, jstack 等 jvm 工具无法对其自动诊断, 只能肉眼看出。在 Kotlin 协程中, 因为底层的线程池申请更加黑盒, 如果不是足够了解, 很容易踩到这类坑。本文不会再去重复 Kotlin 协程的基本语法, 而是专注于死锁的话题。
2024-04-17 10:53:37
1461
原创 一些 MaxCompute 日常优化案例分享
MaxCompute 优化是一个多样而又重要的过程,优化过程中若能够深入理解 ODPS 的工作原理和内部机制,才能够更明确的发现运行过程中存在的问题,这样才能更有针对性地进行优化,优化需要不断思考和尝试不同的想法和方法,适当的时候我们可以寻求平台技术人员帮助,以找到最适合的优化方案。以下通过日常几个优化案例,最终优化手段可能非常简单,但其中的分析过程较为重要,希望对他人有所启发。
2024-04-10 11:02:29
917
原创 漫谈测试策略
测试策略有两层背景叠加:业务大背景和项目小背景。下文提到的测试策略有时指代业务级测试策略,有时指代项目级测试策略,如果无特指强调,则是在探讨两类测试策略的共同特点。
2024-04-03 10:29:08
1585
1
原创 聊聊我做测试开发的十年心路历程
不知不知觉,已经从事测试开发这个行当 10 来年了,从上大学到参加工作,从南方到北方再回南方,辗转了大半个中国,如今算算进公司已经开启了第五个年头,今年就要五年陈了。兜兜转转这十多年间,虽然一直都在质量领域,但其实也经历过不少的角色转换,这几年学习了很多,也收获了很多,希望借此机会跟大家分享自己这些年在质量域和职场上自己的一点思考和总结,写在现在,也写给未来的自己,记录今天的所思所想。在文章的结尾,借用康德的一句话来总结:我始终只求克服自己,不求克服命运;只求改变自己的欲望,不求改变世界秩序。
2024-03-27 14:21:34
1055
2021阿里研究生态报告集
2022-04-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人