OString2024-优快云博客

原创模型和算力看板：Compute DashBoard

AGI（通用人工智能）是整个计算机科学的圣杯，算力的增长和模型能力的提升（算法和数据）缺一不可。作为一个新质生产力，构建一个合理的评价体系是常用的方法论。针对模型和算力的评价，有类似MLPerf 这样的第三方评价组织，但其数据主要依赖各个厂家进行提交，包含单机和服务器的各项指标，通常很难比较单一GPU或者单一模型的各项能力。我们在选择云服务或者单机服务器时，基于现有模型如何匹配合适的算力，通常是一件糟心的事情，考虑到算力的昂贵，需要物尽其用，综合考虑现存/算力/带宽/散热等影响因子。

2024-09-05 22:08:33 677

原创英伟达投资台湾MetAI

英伟达正在加大力度推动机器人及其他工业AI应用的发展，推出了，最近又发布了——一种用于创建数字孪生以运行这些应用程序的 Omniverse 蓝图框架。此外，英伟达还投资于数字孪生初创企业，以推动这一领域的发展。

2025-03-04 08:48:50 663

原创 Jeff Dean 和 Noam Shazeer 对谈，在谷歌的 25 年：从 PageRank 到通用人工智能

Jeff Dean 和 Noam Shazeer 交流。Jeff 是谷歌的首席科学家，在谷歌的 25 年里，他参与研发了现代计算领域众多极具变革性的系统，从 MapReduce、BigTable、TensorFlow、AlphaChip，到如今的 Gemini，成果数不胜数。

2025-02-18 11:07:42 873

原创看不懂的Panlantir能否越过Salesforce这座大山

之前写了一篇https://mp.weixin.qq.com/s/pihUw3_v3oOxOplxQaWoig但眼下Palantir的市值首次突破了2000亿美元大关，成为全球最有价值的SaaS公司之一。这一成就不仅令人瞩目，也引发了广泛的讨论。Palantir的股价在周二的爆炸性增长后，已经超越了Adobe、Shopify和ServiceNow等更成熟的纯软件公司，市值达到了2365亿美元。Palantir能否超越salesforce，成为全球最有价值的软件公司？

2025-02-07 23:08:06 429

原创比亚迪智驾计划前瞻

wx 公众号同名文章：ostring2024。

2025-02-07 10:28:56 268

原创 Meta集群的演进

从下到上，总共三层，分别是AL,CC,EP layer box，CC 和EP之间通过Whiser cable 互联。8卡+ CC layer互联实物图。

2025-02-05 11:32:50 392

原创 2025 GenAI 展望

MG的最新研究深入剖析了33家公司在GenAI领域的布局与潜力，最近整理了下，放到这里，供大家分析和参考。

2025-01-20 09:57:43 611

原创 Google NoteBook 上新

此外，谷歌还推出了该应用的企业高级版本“NotebookLM Plus”，该版本提供了额外的功能和优势。几个月前，谷歌的笔记应用NotebookLM推出了一项名为“音频概览”（Audio Overviews）的功能，该功能通过AI虚拟主持人，根据用户分享的信息生成类似播客的内容。此外，谷歌表示主持人可能会在回应前“尴尬地暂停”，并且由于这是测试功能，偶尔可能会出现不准确的回答。“音频概览”和AI主持人的设计理念是为用户提供一种全新的方式，以消化和理解上传到应用中的文档内容，例如课程阅读材料或法律简报。

2025-01-15 09:35:35 320

原创 2025 CES AMD 发布会

2025年3月上市。

2025-01-07 09:24:16 273

原创 AI 时代：从想法到赚钱的实践

以上都是很实用的建议，贯穿在John的产品从idea到落地的整个过程中。在AI时代，Idea需要反复与你的用户进行验证和修改，这样才能适应这个快节奏的时代，找准用户群，定向推广，这些传统打法往往都被我们忽略，但其实大道至简，帮助我们最大化产品存活率。最近，本人也在尝试利用AI工具撬动以往由于专业空白领域的一些idea，大体感受是，3年前，idea 到落地大概隔着一个大西洋，现如今，两者之间的距离缩短到一个印度洋。最后，最关键的，先做一个垃圾出来，不要停留在Idea上，思想的巨人往往是拖后腿的那个。

2025-01-02 22:56:04 454

原创 GPU 互联选择的挣扎

公众号同名文章: Ostring2024NextPlatform 的一篇文章，2025年伊始，将它重新整理放在这里，中间穿插了一些自己的理解，现在看来，其中的数据对未来有一些指引。去年5 月博通推出 “Thor 2” 网卡芯片时，以及 3 月英伟达推出 GB200 NVL72 机架规模系统之后，我们就打趣说，能使用铜缆的时候就用铜缆，必须使用光缆的时候才用光缆。博通和英伟达都会告诉你，机器的经济性和可靠性就取决于这种方法。GB200 NVL72 系统将这一原则发挥到了极致。这个系统用将。

2025-01-02 22:53:39 588

原创 Tesla Robotaxi 最新进展分析

对于Tesla的估值，最大的一个风险其实还是Elon 的跳票，直到今天为止，10.10 号这个日期还有被鸽的风险。预期落地后，考虑到Robotaxi 作为Tesla 第一落地的场景，指望它马上上路可以点到点实现无人接客，仍然还有一段很长的corner case 扫盲曲线需要攀爬。目前尚不清楚这是否是该车型的实际名称，但鉴于据说它具有类似赛博卡车的风格，这将是合理的。ASS（Actually Smart Summon，真正智能召唤）功能可以让你的车辆自动来到你身边，或者前往你选择的地点，完全自主。

2024-09-26 11:06:37 679

原创 OpenAI o1 开启新的scaling law？

原创 Ostring OString2024 2024年09月13日文中提到的技术报告和相应资料可以后台私信作者发送：德扑AI之父Noam Brown 2023年刚加入OpenAI，成为最新模型Strawberry 🍓的重要推手。一大早就被OpenAI o1 的发布刷屏。

2024-09-17 16:34:08 719

原创多模态大模型

对于个人用户而言，面对海量的在线视频资源，快速准确地通过关键词或描述找到感兴趣的视频十分重要。同时，在个人存储设备如手机或网络云盘中，用户也存在检索自己拍摄录制的视频资料的需求。而对于视频剪辑师和制作团队来说，在庞大的媒资库中搜索所需的视频片段或素材是一项日常基础工作。精准高效的视频检索技术可以满足其在短时间内锁定匹配的素材，有效提升创作效率。基于大模型的自然语言视频检索多模态表征大模型能够将文本、图片、音频、视频等内容转换成高维空间中的向量表示，也称为嵌入（embeddings）。

2024-08-28 08:05:40 525

原创 GPU 片上调度系统

例如，如果内核设计为每个线程处理一个数据元素，使用可以直接映射N个线程到N个数据元素，而不需要额外的逻辑来分配线程到数据。使用时，每个线程的全局索引可以直接用其线程块索引表示，因为每个线程块内只有一个线程。启动大量单个线程的线程块可能比启动少量多线程的线程块更有效率，因为每个线程块的启动开销是固定的，而更多的线程块可以更细粒度地利用GPU的并行处理能力。如果内核中没有线程间通信的需求，使用可以减少线程块内线程间通信的复杂性和开销。

2024-08-06 18:09:58 963

原创 cuda逐步优化实现reduce sum 操作

归约是一种常见的数据并行原语，它将数组中的元素通过某种二元操作（如加法）合并成一个单一的值。来演示重要的优化策略。由于规约的算术操作很简单，对算力要求不高，因此我们逐步优化目标是尽可能达到最高的带宽利用率，基本想法是：树状归约方法：在每个线程块内使用基于树的方法进行局部归约，然后需要处理如何跨线程块通信部分结果。

2024-08-05 16:12:23 746

原创 Nvidia nsight 性能分析工具

【代码】Nvidia nsight 性能分析工具。

2024-07-24 17:54:40 432 1

原创字节跳动万卡集群网络分析

从公开的信息披露，截至2023年9月，字节跳动已经建立超过一万张的英伟达Ampere架构GPU集群，目前正在建设Hopper架构的集群。英伟达Ampere架构主要包括A100和A800型号的芯片，Hopper架构相较前者则更新，主要包括H100和H800芯片字节和北大公布的论文，关于网络拓扑的描述主要是其中一章节：根据这段描述试图我们试图重现整个集群的拓扑结构单pod GPU数量为4096，多pod 通过core switch 进行全互联，可以支撑超大规模集群的scale out。

2024-06-19 22:12:22 1622

原创智算中心带宽漫谈 -- 开篇

带宽对高性能计算是一个永恒的话题，本质上，带宽即数据交换的速率，单位时间的传输数据越多，带宽就越高，但对高性能计算来说，对高带宽的渴求永无止境，好比宏观现实世界中的车道，90年代设计的国道，对于低速的自行车和少量高速的货车来说，足以应付，但那个时代永远不会预料到，在21世纪的今天，高速的私家车会成为车道上的主要流量，因此，当时的设计已经遇到了车流量交换速率的瓶颈，在此基础上进行拓宽？面积受限，国道周围已经高楼大厦，架构已经成型，拓展空间已然被压缩。

2024-05-25 21:33:04 500

原创高性能推理框架漫谈

目前应用比较多的是VLLM 和DeepSpeed，关于二者的比较：

2024-05-24 10:15:27 362

原创 GPT4o的几点想法

多模态能力：多模态的处理能力，现在的Mixtral和各种MOE在处理多模态问题还是遇到瓶颈，实现demo状态的丝滑切换不光是要在模型层面下功夫，工程化也需要有极高的造诣，这一点不得不佩服，就演示的几个场景来看，从语音到提示打开视频识别，chatgpt切换极其自然和稳定，甚至有增加了过渡的语气和主持人开玩笑，就这个能力来看，不只是MOE expert切换能够解决的了；端到端的处理能力：这个能力的落地进一步验证了transformer的泛化能力，everything is token 的时代即将到来。

2024-05-16 22:25:01 484

原创大语言模型的后处理

常规意义上的大模型处理流程后处理的输入是logits，其实准确说是hidden states，经过embedding table 映射后得到了最终的logits。

2024-05-10 10:18:03 553

原创真正的AI 设备：M4 加持iPad Pro

这个配置和性价比，以及内存带宽，同时统一大内存对编程模型天然友好，对开发者来说也是一大福音, 本地跑十亿级大模型已经不是问题, iPad 设备上大模型的落地，也会进一步激发相关应用的繁荣。北京时间 5/7 晚上，Apple正式发布了其M4 芯片，其对本地化的神经网络加速是一次越级的提升，第一次落地选在iPad上进行部署，从行业的角度是一个明智的选择，相比Mac Pro， iPad 的创作属性更加纯正，也符合AIGC 目前众多落地场景中的娱乐元素。期待其他更丰富的AI 应用本地化，后续持续追踪。

2024-05-08 10:07:34 617

原创特斯拉FSD落地分析

28/4 号的突然访华，在大多数人看来其实已经早已是计划之中，从摆在台面上的消息来看，主要目的是为了在大陆推广FSD的落地，也为8月份FSD 的正式版本做预热，和中国上海的第一次联姻造就了特斯拉model3 产能的极速提升，加速了model3 的落地，因此，FSD 是否能让特斯拉和中国再续前缘，关乎着Tesla 的股价是否能再一次起飞。从这个角度看，Tesla 是这个市场上独一无二的存在，拥有全栈FSD解决方案，同时拥有持续增长的真实道路数据，对于客户和投资者，需要时间静待花开，迎来突破曲线的拐点。

2024-05-04 22:02:47 1196

原创聊聊服务器散热方案的演进

最近在关注美股，围观行业大佬分析NV 供应链体系，注意到一家公司VRT，这家公司是NV 的独家液冷方案提供商。最近VRT 的股价青云直上，一家做液冷方案的公司护城河到底有多深，散热方案在整个行业中处于什么位置，这些问题是我想了解的。NV 的技术路线图从A100/H100 到最新GB200 的体系，TDP 也从300~700W 跃升到1000W 的门槛，以往的风冷方案在散热效率上显得非常力不从心。

2024-04-27 23:11:32 1389

原创 Nvidia DGX 系统分析和探讨

下图为1U 高度的NVL72 单节点实物形态，其中每个节点包含两组GB200s 系统，整合水冷散热。![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/987b768da14344eab5fc9201aecc41ed.png实物NVL72 机柜![实物NVL72 机柜](https://img-blog.csdnimg.cn/direct/5398d8a1102a4a35acec66e85dc9e4d8.pngRank 之间的互联通过。

2024-04-15 14:25:08 1322

原创 github 多个账号共享ssh key 的设置方法

首先确认自己系统内有没有 ssh key。bash复制代码cd ~/.ssh若有，确认使用当前 key 或者生成新 key，若没有，生成新 key。由于我需要登录两个帐号，所以在已经存在的 key 的基础上，再生成一个 key。生成 ssh key-t 是使用的算法，一般都选择 rsa -C 为备注，一般以邮箱作为备注，提示保存文件时以 id_rsa_work 保存，用于区分第一个密钥id_rsa。至此，我的 ~/.ssh 文件夹内共有4个文件。

2024-04-03 22:54:17 1297

原创一文搞懂大模型的前处理

基本思想是基于词典匹配，将待分词的中文文本根据一定规则切分和调整，然后跟词典中的词语进行匹配，匹配成功则按照词典的词分词，匹配失败通过调整或者重新选择，如此反复循环即可。分词的处理，在英文中翻译成tokenizer，它拆分一段文本为独立的单元，成为token，其中的token可以是一个词语（word），也可以是一个句子（sentence），还可以是一个字符（character）。理解了肉身文字处理的原理，我们采用类似的方式让大语言模型能够理解这段中文，我们首先要按照类似的方式对这段文字进行预处理。

2024-01-24 09:29:45 1026

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

linux kernel driver

USB audio class specification

Linux常用命令全集

omnet++(tictoc 教程中文版)指南

dsp技术 （Ti）

FPGA ISE编程入门

空空如也

dsp技术（Ti）