高校_学术猿之吻的博客-优快云博客

高校

关注

文章平均质量分 85

关注数：文章数：41 文章阅读量：47720 文章收藏量：561

作者: 学术猿之吻

这个作者很懒，什么都没留下…

展开

专栏收录文章

很好的H卡GPU算力平台推荐——Aladdin算力平台

看介绍，是九章云极新出的针对C端高校硕博研究生以及实验室的新产品，主打H卡，计费模式是按量（度，即DCU）计费，有点类似移动流量套餐的感觉，套餐按月付费，套餐内包含一定的套餐内算力，用完可购买扩展包，比较方便，可以根据具体需求进行选择。做了学生认证，可以享受教育优惠价，还是很nice的。官网是AladdinEdu。

原创 2025-04-30 14:31:08 · 1295 阅读 · 0 评论
量子计算与GPU的异构加速：基于CUDA Quantum的混合编程实践

量子计算模拟面临‌指数级增长的资源需求‌：n个量子比特的态向量需要存储2^n个复数。当30量子比特的Shor算法在A100集群上实现亚秒级仿真时，我们看到的不仅是硬件性能的突破，更是计算范式的革命。，正在模糊经典计算与量子计算的边界。这种融合加速技术，或将成为通往实用量子计算的必经之路。实验显示，当量子比特数达到30时，8节点集群（32*A100）比单节点性能提升7.8倍。该架构支持在单个节点内同时调用4个A100 GPU和1个量子处理器，实现任务级并行。，将量子门操作速度提升49倍。

原创 2025-04-26 19:10:47 · 1165 阅读 · 0 评论
算力网络(CFN)在跨校联合科研中的应用：安全性挑战与联邦调度实践

当MIT通过CFN调用中科院的量子算力完成室温超导验证时，我们看到的不仅是技术的胜利，更是科研范式的革命。区块链赋能的算力网络正在创造一个新的信任维度——在这里，每个FLOP（浮点运算）都带有不可篡改的信用印记。这种技术进化，终将让人类智慧突破物理疆域的限制。

原创 2025-04-25 13:54:56 · 1128 阅读 · 0 评论
混合精度训练中的算力浪费分析：FP16/FP8/BF16的隐藏成本

混合精度训练的本质是‌在计算效率、内存带宽、数值精度之间寻找帕累托最优‌。通过Nsight Compute等工具深度剖析发现，单纯降低数据位宽可能引发新的性能瓶颈。建议开发者在不同硬件架构上执行完整的‌精度-算力-带宽三维分析‌，结合框架特性制定优化策略。注：本文实验数据基于NVIDIA A100/H100 GPU、CUDA 12.2、PyTorch 2.1和TensorFlow 2.12环境测得，具体优化效果因硬件配置而异。

原创 2025-04-19 23:37:49 · 1248 阅读 · 0 评论
高校超算中心建设指南：Slurm调度器与GPU资源共享的20个陷阱（清华/中科大真实案例）

在高校超算中心的建设实践中，Slurm调度器与GPU资源管理是两大核心课题。本文基于清华大学、中国科学技术大学等机构的真实运维案例，总结出20个关键陷阱及解决方案，供高校科研人员参考。

原创 2025-04-18 22:28:01 · 1288 阅读 · 0 评论
多模态大模型的算力需求预测：从理论FLOPs到实际集群配置（搭建算力成本评估模型的方法论）

其中L为层数，h为注意力头数，d为隐层维度。该公式揭示了模型规模与计算资源的‌。（Pi 为设备价格，T 寿命按5年计算）‌‌。（H100典型功耗700W，负载率85%）‌。-跨区域数据传输费用按$0.05/GB计算‌。（数据来源：超大规模AI集群建设白皮书）‌。该策略可使集群利用率稳定在75%以上‌。多模态大模型的算力需求可通过‌。

原创 2025-04-17 21:43:22 · 830 阅读 · 0 评论
边缘计算场景下的模型轻量化：TensorRT部署YOLOv7的端到端优化指南

在边缘设备（如Jetson系列）部署YOLOv7需兼顾模型精度、推理速度与功耗限制三重约束。TensorRT作为NVIDIA官方推理加速库，通过算子融合、量化压缩和内存复用等优化技术，可将模型推理速度提升2-5倍‌。

原创 2025-04-16 00:19:37 · 1445 阅读 · 0 评论
AladdinEdu的使用教程——GPU-插件使用流程

GPU，VScode中的GPU调用教程与最佳实践

原创 2025-04-15 23:49:28 · 1059 阅读 · 0 评论
超越CUDA：ROCm与oneAPI在异构计算中的性能对比实验（国产GPU生态下的开发路径探索）

实验显示，ROCm在FP32算力上超越CUDA平台，但通信延迟高出81%；oneAPI在异构设备协同计算中展现出独特优势，跨架构任务调度效率达CUDA的89%‌。通过差异化技术路线持续挑战其垄断地位。二者在国产GPU生态建设中展现出独特价值——（测试环境：PyTorch 2.4 + Ubuntu 22.04）当前异构计算领域呈现“一超多强”格局：英伟达凭借‌。占据90%以上的AI训练市场份额‌，而AMD的‌。

原创 2025-04-14 23:02:29 · 721 阅读 · 0 评论
从Ampere到Hopper：GPU架构演进对AI模型训练的颠覆性影响

以典型1750亿参数的GPT-3模型为例，在Ampere架构的A100 GPU上训练需要约34天（使用1024块GPU），而采用Hopper架构的H100可将训练周期缩短至19天，算力利用率提升幅度达44%‌35。以GPT-4的训练过程为例，H100的FP8精度训练相较A100的BF16精度，不仅将单卡吞吐量提升3.2倍，还能减少17%的梯度同步通信开销‌。在LLaMA-65B模型的训练实践中，使用A100的稀疏计算特性可使每迭代步耗时降低18%，显存占用减少23%‌。Ampere架构引入‌。

原创 2025-04-14 22:19:34 · 762 阅读 · 0 评论
GPU虚拟化技术在分布式训练中的落地难题与解决方案

在高校实验室中，GPU资源的高效利用是支撑分布式训练、大模型研究的关键。然而，多课题组共享GPU集群时普遍存在‌**资源碎片化、隔离性不足、调度效率低‌**等问题。本文结合K8s技术栈，系统性分析GPU虚拟化落地的核心难题，并提供可复用的解决方案。

原创 2025-04-13 13:40:03 · 589 阅读 · 0 评论
CUDA编程高阶优化：如何突破GPU内存带宽瓶颈的6种实战策略

在GPU计算领域，内存带宽瓶颈是制约性能提升的"隐形杀手"。本文面向具备CUDA基础的研究者，从寄存器、共享内存到Tensor Core，系统剖析6项突破性优化策略，助你充分释放GPU算力。

原创 2025-04-13 12:08:15 · 520 阅读 · 0 评论
GPU虚拟化技术在深度学习集群中的应用实践

通过某高校实验室的真实数据：在部署GPU虚拟化后，年度计算任务吞吐量提升210%，同时电力成本降低37%。建议读者从MIG技术切入，逐步构建弹性智能的算力供给体系。记住，虚拟化不是性能的敌人，低效的手工分配才是。

原创 2025-04-12 13:54:08 · 1328 阅读 · 0 评论
CUDA编程优化：如何实现矩阵计算的100倍加速

矩阵计算的百倍加速需要打通"内存带宽→计算密度→指令吞吐"三重关卡。根据NVIDIA Ampere架构白皮书，A100 GPU的理论计算峰值（FP32）为19.5 TFLOPS，但原生CUDA代码往往只能达到5-8%的理论值。通过系统化优化策略，我们成功将1024×1024矩阵乘法从初始的212ms优化至2.1ms，实现101倍加速（测试平台：NVIDIA RTX 3090）。

原创 2025-04-12 13:41:00 · 684 阅读 · 0 评论
NVIDIA H100 vs A100：新一代GPU架构性能对比分析

H100通过架构革新实现了代际性能飞跃，但其价值需结合具体应用场景评估。对于从事大模型研究的科研团队，建议优先构建H100计算集群；而传统科学计算项目仍可沿用A100以平衡成本效益。随着CUDA 12.5对Hopper架构的深度优化，H100的潜能将在2025年得到进一步释放‌。

原创 2025-04-11 22:36:39 · 2455 阅读 · 0 评论
CUDA编程进阶：利用Shared Memory优化矩阵计算性能300%

在CUDA并行计算领域，全局内存的高延迟和有限带宽一直是性能优化的关键瓶颈。以矩阵乘法为例，传统核函数（naive kernel）的计算吞吐量往往只能达到理论峰值的5%-10%。而通过共享内存（Shared Memory）的合理运用，我们成功将某1024x1024矩阵乘法的计算性能提升至原始版本的3倍。本文将深入剖析如何通过分块计算、bank conflict规避和warp级优化实现这一突破。

原创 2025-04-11 13:24:49 · 1710 阅读 · 0 评论
CUDA核心数翻倍=训练速度翻倍？警惕GPU租赁的5大认知误区

**90%的GPU租赁决策都存在认知偏差‌**，这些偏差直接导致科研经费的浪费和项目周期的延长。本文将通过实验室级测试数据，揭开GPU性能的真实面纱。

原创 2025-04-10 00:26:22 · 970 阅读 · 0 评论
A100 vs H100 vs 4090：百张显卡实测深度学习性价比

在H100展现极致性能、A100坚守性价比防线、4090打破消费级界限的算力战国时代，科研工作者更需要建立多维评估体系。通过本文的实测数据可以发现：当需要处理千亿参数级别任务时，H100集群仍是无可争议的王者；而在中小规模实验中，4090已展现出颠覆传统格局的潜力。对于高校科研群体，采用混合算力架构+弹性云服务的组合策略，或许是最优解。

原创 2025-04-09 13:57:39 · 2025 阅读 · 0 评论
GPU显存不足？分布式训练如何让单卡变百卡：PyTorch实战与弹性算力启示

从单卡到百卡，不仅是算力的量变，更是科研范式的质变。当我们在PyTorch中写下torch.distributed.init_process_group时，开启的是一扇通向高效科研的新大门。而弹性算力平台，则让每个研究者都能以极低成本触及最前沿的计算资源。或许下一个AI突破，就诞生于你在云端启动的分布式训练任务中。

原创 2025-04-09 12:16:53 · 990 阅读 · 0 评论
AI工厂崛起：解析吴泳铭提出的GPU中心化计算范式

在2024云栖大会上，阿里巴巴集团CEO吴泳铭首次提出“GPU中心化计算范式”，预言未来算力基础设施将从传统CPU主导的通用计算模式，转向以GPU为核心的“AI算力池”架构。这一转型不仅是对生成式AI算力需求的响应，更是对物理世界与数字世界深度融合的技术重构。本文从技术路径、产业实践与挑战三个维度，深度解析这一变革的逻辑与实现路径。

原创 2025-04-08 14:20:28 · 893 阅读 · 0 评论
边缘计算革命：低功耗GPU在自动驾驶实时决策中的应用

自动驾驶系统需在30ms内完成环境感知、路径规划与车辆控制的全流程闭环‌。传统云端计算受限于网络延迟（通常>100ms）和带宽瓶颈，难以满足实时性要求。而边缘计算设备通过本地化部署，可实现多传感器融合（激光雷达+摄像头+毫米波雷达）的实时处理，典型场景下系统响应时延可压缩至20ms以内‌。

原创 2025-04-08 12:12:33 · 1240 阅读 · 0 评论
量子计算模拟中的GPU加速：从量子门操作到Shor算法实现

量子计算模拟面临‌**指数级增长的资源需求‌**：n个量子比特的态向量需要2^n个复数存储空间。当n>30时，单机内存已无法承载（1TB需求）。传统CPU模拟器（如Qiskit的Aer）在n=28时计算速度降至0.1门操作/秒‌。

原创 2025-04-07 11:01:32 · 1129 阅读 · 0 评论
国产GPU破局之路：摩尔线程与景嘉微的技术路线对比

在英伟达占据全球AI芯片市场90%份额的背景下，国产GPU企业正通过差异化技术路线谋求突破。摩尔线程与景嘉微分别代表了**全功能通用GPU**与**垂直领域专用GPU**的两大方向。本文从架构设计、生态策略、应用场景三维度，解析二者在AI训练与推理领域的竞争逻辑。

原创 2025-04-06 17:27:42 · 2412 阅读 · 0 评论
CUDA编程进阶：从GEMM优化到逼近GPU理论算力极限

在深度学习和科学计算领域，GEMM（通用矩阵乘法）占据超过70%的计算量。英伟达A100 GPU的理论FP16算力达312 TFLOPS，但未经优化的GEMM实现往往只能达到理论值的10-30%。本文通过**SAXPY基准分析→GEMM优化层次→逼近硬件极限**的递进式路径，揭示CUDA性能调优的核心方法论。

原创 2025-04-06 15:29:03 · 874 阅读 · 0 评论
英伟达Blackwell架构深度拆解：新一代GPU如何突破算力瓶颈？

随着生成式AI、具身智能和物理AI的爆发，算力需求呈现指数级增长。英伟达2025年推出的Blackwell架构，通过**计算密度跃升、内存带宽革命、能效比优化**三大创新，重新定义了AI芯片的性能边界。本文将结合硬件设计、软件生态与行业应用，深度解析Blackwell架构的技术突破及其对科研领域的启示。

原创 2025-04-05 18:37:26 · 2314 阅读 · 0 评论
量子纠错码实战：从Shor码到表面码

量子比特的脆弱性导致其易受退相干和噪声影响，单量子门错误率通常在10⁻³~10⁻²量级。量子纠错码（QEC）通过**冗余编码+测量校正**的机制，将逻辑量子比特的错误率降低到可容忍水平。本文从首个量子纠错码（Shor码）到当前主流的表面码（Surface Code），结合Qiskit实战演示纠错过程，解析量子容错计算的核心技术。

原创 2025-04-05 16:29:19 · 1194 阅读 · 0 评论
量子计算入门：Qiskit实战量子门电路设计

量子门是量子计算的基本操作单元，其通过操控量子比特的叠加与纠缠实现并行计算。IBM开发的Qiskit框架为量子算法设计与模拟提供了强大工具。本文将从**量子门基础、Qiskit实战、量子隐形传态案例**三个维度，结合代码解析量子门电路的设计方法，助力高校研究者快速入门量子编程。

原创 2025-04-04 22:57:07 · 869 阅读 · 0 评论
开发者副业探索：如何将学术成果转化为商业产品

在高校实验室诞生的技术创新中，仅有不到5%最终实现商业化。如何将论文、专利转化为可落地的商业产品，成为硕博研究生突破"学术孤岛"的关键能力。本文通过**方法论+法律指南+融资策略+实战案例**四维框架，系统解析学术成果转化的完整路径。

原创 2025-04-04 22:39:54 · 1015 阅读 · 0 评论
科研与工程的选择困境：博士毕业去向深度分析

博士毕业是学术生涯的重要里程碑，却也意味着面临重大抉择：继续深耕科研，还是转向产业界实践？随着博士扩招与就业市场变迁，这一选择愈发复杂。本文基于最新就业数据与行业趋势，从**职业发展路径、学科差异、地域选择、个人特质**四个维度，解析博士毕业生的去向困境，并提供战略性建议。

原创 2025-04-03 15:28:47 · 1067 阅读 · 0 评论
CUDA编程进阶：如何优化GPU内存访问模式

在GPU计算中，超过60%的性能瓶颈源自内存访问效率低下。CUDA程序优化的核心目标是通过合理设计内存访问模式，最大化利用GPU的内存带宽。本文将围绕对齐与合并访问、共享内存优化、内存布局重构三大方向，结合实战代码解析内存优化的核心技术。

原创 2025-04-03 13:18:32 · 895 阅读 · 0 评论
多模态大模型实战：从CLIP到BLIP-2的技术演进

多模态大模型的发展经历了从**单模态表征对齐**到**跨模态语义生成**的跨越。2021年OpenAI提出的CLIP通过对比学习奠定了图文对齐的基础，而2023年Salesforce推出的BLIP-2则通过轻量化设计实现了视觉与语言模型的深度协作。本文将以**技术演进路径+实战代码解析**为主线，揭示多模态模型从CLIP到BLIP-2的核心突破与工程实践。

原创 2025-04-02 22:59:13 · 848 阅读 · 0 评论
Transformer在多模态中的应用：CLIP模型原理解析

数据规模优先：足够数据可弥补算法缺陷统一表征空间：跨模态语义对齐是关键零样本泛化：通向通用AI的重要路径思考题为什么CLIP需要对比损失而非直接回归？如何设计适合视频-文本的多模态模型？下期预告：《多模态大模型实战：从CLIP到BLIP-2的技术演进》OpenAI CLIP官方代码Hugging Face Transformers库（注：实验数据基于CLIP ViT-B/32模型，实际应用需根据场景调整Prompt模板）

原创 2025-04-02 18:25:55 · 809 阅读 · 0 评论
Swin Transformer原理详解：让Transformer真正成为视觉通用骨干

Vision Transformer（ViT）虽在图像分类中表现出色，但其**全局注意力机制**导致计算复杂度与图像尺寸呈平方关系（O(n²)），难以处理高分辨率图像。2021年，Swin Transformer通过**层级架构+滑动窗口**的创新设计，首次让Transformer成为目标检测、分割等密集预测任务的通用骨干网络。本文将从数学推导、结构设计和代码实现三方面揭示其核心原理。

原创 2025-04-01 14:16:27 · 836 阅读 · 0 评论
Vision Transformer实战：如何将Transformer应用于图像分类

传统图像分类任务由CNN主导，但Transformer凭借其**全局建模能力**，在ImageNet等基准任务中刷新了记录。2020年，Vision Transformer（ViT）的提出标志着Transformer正式进军CV领域。本文将以实战为导向，详解如何用纯**Transformer实现图像分类**，并提供完整PyTorch代码实现。

原创 2025-04-01 13:53:25 · 1267 阅读 · 0 评论
Transformer架构详解：从Encoder到Decoder的完整旅程

并行计算：彻底摆脱RNN的时序依赖层次化注意力：从局部到全局的特征抽象统一架构：同一模型处理不同模态任务思考题为什么Decoder需要两个不同的注意力层？如何理解“多头”注意力中的“头”维度分配？下期预告：《Vision Transformer实战：如何将Transformer应用于图像分类》参考资料Transformer代码库（注：文中部分示意图需配合代码运行生成，完整实现代码可在优快云资源下载专区获取）

原创 2025-03-31 11:17:44 · 722 阅读 · 0 评论
图解Transformer：从零推导Self-Attention机制

Self-Attention通过动态权重分配机制，突破了传统序列模型的限制。内容寻址：根据输入数据本身动态生成权重并行计算：矩阵运算最大化硬件利用率思考题为什么点积相似度要除以√d_k？多头注意力（Multi-Head）如何提升模型表现？下期预告：《Transformer架构详解：从Encoder到Decoder的完整旅程》参考资料Transformer代码实现（GitHub（注：所有图示均为简化示意图，实际实现需考虑Mask机制、多头注意力等细节）

原创 2025-03-31 07:46:03 · 1052 阅读 · 0 评论
‌博士生存指南：如何用3个月从PyTorch进阶CUDA核函数开发？‌

3个月的CUDA进阶之路需要平衡理论学习与项目实践：前两周掌握基础语法，随后以性能优化为主线，最终通过混合编程打通落地方案。记住，每一个性能百分点的提升，都是对计算本质理解的深化。，覆盖内存优化、并行模式设计、混合编程接口三大核心模块，助你在3个月内构建高性能计算的核心竞争力。‌目标‌：掌握CUDA基础语法，实现首个性能超过PyTorch原生算子的自定义核函数。**‌目标‌：**实现高效GEMM（矩阵乘）核函数，性能达到cuBLAS的80%以上。益‌：FP16计算吞吐量可达FP32的8倍（理论值）

原创 2025-03-30 16:49:21 · 1648 阅读 · 0 评论
‌如何快速复现顶会论文代码？——从GitHub到实际环境的避坑指南‌

复现顶会代码是一场与“魔鬼细节”的较量。记住，开源社区的本质是“提问的艺术”与“共享的智慧”——当你解决了一个复现难题，不妨将方案提交Pull Request，让后来者少走弯路。复现顶会论文代码是科研工作者的必修课，但GitHub仓库中“README很美好，代码跑不了”的现象屡见不鲜。本文从环境配置、参数解析、数据获取三大痛点出发，结合实战技巧，助你高效跨越复现鸿沟。作者可能使用Python 3.6+Torch 1.8，而你的本地环境是Python 3.10+Torch 2.0。：比对论文中的训练曲线。

原创 2025-03-30 16:29:35 · 1005 阅读 · 0 评论
‌博士生必备：用PyTorch Lightning优化实验管理的5个高阶技巧‌

本文从分布式训练、超参数搜索、实验记录、回调定制等维度，分享5个提升实验管理效率的实战技巧。PyTorch Lightning的高阶功能可帮助博士生将实验管理效率提升至少3倍：分布式训练减少80%的代码冗余，Optuna自动化调参节省数周时间，MLflow实现实验资产的全生命周期管理。建议读者从本文的代码片段出发，逐步构建自己的实验管理系统。传统手动调参效率低下，Optuna可通过贝叶斯优化自动搜索超参数组合。**‌优势‌：**支持并行化搜索、自动剪枝、结果可视化，比网格搜索效率提升10倍以上。

原创 2025-03-29 20:03:18 · 578 阅读 · 0 评论
顶会攻防指南：如何用NeurIPS审稿人思维写出致命Rebuttal？

作为AI领域研究者，我们都经历过这样的噩梦时刻：打开NeurIPS评审意见时，发现三个Reviewer中有一个给出"Strong Reject"，而距离截止日期只剩72小时… 此时，一份精准的Rebuttal可能是逆风翻盘的最后机会。

原创 2025-03-29 19:48:10 · 1300 阅读 · 0 评论

高校

作者: 学术猿之吻

很好的H卡GPU算力平台推荐——Aladdin算力平台

量子计算与GPU的异构加速：基于CUDA Quantum的混合编程实践

算力网络(CFN)在跨校联合科研中的应用：安全性挑战与联邦调度实践

混合精度训练中的算力浪费分析：FP16/FP8/BF16的隐藏成本

高校超算中心建设指南：Slurm调度器与GPU资源共享的20个陷阱（清华/中科大真实案例）

多模态大模型的算力需求预测：从理论FLOPs到实际集群配置（搭建算力成本评估模型的方法论）

边缘计算场景下的模型轻量化：TensorRT部署YOLOv7的端到端优化指南

AladdinEdu的使用教程——GPU-插件使用流程

超越CUDA：ROCm与oneAPI在异构计算中的性能对比实验（国产GPU生态下的开发路径探索）

从Ampere到Hopper：GPU架构演进对AI模型训练的颠覆性影响

GPU虚拟化技术在分布式训练中的落地难题与解决方案

CUDA编程高阶优化：如何突破GPU内存带宽瓶颈的6种实战策略

GPU虚拟化技术在深度学习集群中的应用实践

CUDA编程优化：如何实现矩阵计算的100倍加速

NVIDIA H100 vs A100：新一代GPU架构性能对比分析

CUDA编程进阶：利用Shared Memory优化矩阵计算性能300%

CUDA核心数翻倍=训练速度翻倍？警惕GPU租赁的5大认知误区

A100 vs H100 vs 4090：百张显卡实测深度学习性价比

GPU显存不足？分布式训练如何让单卡变百卡：PyTorch实战与弹性算力启示

AI工厂崛起：解析吴泳铭提出的GPU中心化计算范式

边缘计算革命：低功耗GPU在自动驾驶实时决策中的应用

量子计算模拟中的GPU加速：从量子门操作到Shor算法实现

国产GPU破局之路：摩尔线程与景嘉微的技术路线对比

CUDA编程进阶：从GEMM优化到逼近GPU理论算力极限

英伟达Blackwell架构深度拆解：新一代GPU如何突破算力瓶颈？

量子纠错码实战：从Shor码到表面码

量子计算入门：Qiskit实战量子门电路设计

开发者副业探索：如何将学术成果转化为商业产品

科研与工程的选择困境：博士毕业去向深度分析

CUDA编程进阶：如何优化GPU内存访问模式

多模态大模型实战：从CLIP到BLIP-2的技术演进

Transformer在多模态中的应用：CLIP模型原理解析

Swin Transformer原理详解：让Transformer真正成为视觉通用骨干

Vision Transformer实战：如何将Transformer应用于图像分类

Transformer架构详解：从Encoder到Decoder的完整旅程

图解Transformer：从零推导Self-Attention机制

‌博士生存指南：如何用3个月从PyTorch进阶CUDA核函数开发？‌

‌如何快速复现顶会论文代码？——从GitHub到实际环境的避坑指南‌

‌博士生必备：用PyTorch Lightning优化实验管理的5个高阶技巧‌

顶会攻防指南：如何用NeurIPS审稿人思维写出致命Rebuttal？