- 博客(115)
- 资源 (8)
- 收藏
- 关注

原创 模型和算力看板:Compute DashBoard
AGI(通用人工智能)是整个计算机科学的圣杯,算力的增长和模型能力的提升(算法和数据)缺一不可。作为一个新质生产力,构建一个合理的评价体系是常用的方法论。针对模型和算力的评价,有类似MLPerf 这样的第三方评价组织, 但其数据主要依赖各个厂家进行提交,包含单机和服务器的各项指标,通常很难比较单一GPU或者单一模型的各项能力。我们在选择云服务或者单机服务器时,基于现有模型如何匹配合适的算力,通常是一件糟心的事情,考虑到算力的昂贵,需要物尽其用,综合考虑现存/算力/带宽/散热 等影响因子。
2024-09-05 22:08:33
677
原创 英伟达投资台湾MetAI
英伟达正在加大力度推动机器人及其他工业AI应用的发展,推出了,最近又发布了——一种用于创建数字孪生以运行这些应用程序的 Omniverse 蓝图框架。此外,英伟达还投资于数字孪生初创企业,以推动这一领域的发展。
2025-03-04 08:48:50
663
原创 Jeff Dean 和 Noam Shazeer 对谈,在谷歌的 25 年:从 PageRank 到通用人工智能
Jeff Dean 和 Noam Shazeer 交流。Jeff 是谷歌的首席科学家,在谷歌的 25 年里,他参与研发了现代计算领域众多极具变革性的系统,从 MapReduce、BigTable、TensorFlow、AlphaChip,到如今的 Gemini,成果数不胜数。
2025-02-18 11:07:42
873
原创 看不懂的Panlantir能否越过Salesforce这座大山
之前写了一篇https://mp.weixin.qq.com/s/pihUw3_v3oOxOplxQaWoig但眼下Palantir的市值首次突破了2000亿美元大关,成为全球最有价值的SaaS公司之一。这一成就不仅令人瞩目,也引发了广泛的讨论。Palantir的股价在周二的爆炸性增长后,已经超越了Adobe、Shopify和ServiceNow等更成熟的纯软件公司,市值达到了2365亿美元。Palantir能否超越salesforce,成为全球最有价值的软件公司?
2025-02-07 23:08:06
429
原创 Meta集群的演进
从下到上,总共三层,分别是AL,CC,EP layer box,CC 和EP之间通过Whiser cable 互联。8卡+ CC layer互联实物图。
2025-02-05 11:32:50
392
原创 Google NoteBook 上新
此外,谷歌还推出了该应用的企业高级版本“NotebookLM Plus”,该版本提供了额外的功能和优势。几个月前,谷歌的笔记应用NotebookLM推出了一项名为“音频概览”(Audio Overviews)的功能,该功能通过AI虚拟主持人,根据用户分享的信息生成类似播客的内容。此外,谷歌表示主持人可能会在回应前“尴尬地暂停”,并且由于这是测试功能,偶尔可能会出现不准确的回答。“音频概览”和AI主持人的设计理念是为用户提供一种全新的方式,以消化和理解上传到应用中的文档内容,例如课程阅读材料或法律简报。
2025-01-15 09:35:35
320
原创 AI 时代:从想法到赚钱的实践
以上都是很实用的建议,贯穿在John的产品从idea到落地的整个过程中。在AI时代,Idea需要反复与你的用户进行验证和修改,这样才能适应这个快节奏的时代,找准用户群,定向推广,这些传统打法往往都被我们忽略,但其实大道至简,帮助我们最大化产品存活率。最近,本人也在尝试利用AI工具撬动以往由于专业空白领域的一些idea,大体感受是,3年前,idea 到落地大概隔着一个大西洋,现如今,两者之间的距离缩短到一个印度洋。最后,最关键的,先做一个垃圾出来,不要停留在Idea上,思想的巨人往往是拖后腿的那个。
2025-01-02 22:56:04
454
原创 GPU 互联选择的挣扎
公众号同名文章: Ostring2024NextPlatform 的一篇文章,2025年伊始,将它重新整理放在这里,中间穿插了一些自己的理解,现在看来,其中的数据对未来有一些指引。去年5 月博通推出 “Thor 2” 网卡芯片时,以及 3 月英伟达推出 GB200 NVL72 机架规模系统之后,我们就打趣说,能使用铜缆的时候就用铜缆,必须使用光缆的时候才用光缆。博通和英伟达都会告诉你,机器的经济性和可靠性就取决于这种方法。GB200 NVL72 系统将这一原则发挥到了极致。这个系统用将。
2025-01-02 22:53:39
588
原创 Tesla Robotaxi 最新进展分析
对于Tesla的估值,最大的一个风险其实还是Elon 的跳票,直到今天为止,10.10 号这个日期还有被鸽的风险。预期落地后,考虑到Robotaxi 作为Tesla 第一落地的场景,指望它马上上路可以点到点实现无人接客,仍然还有一段很长的corner case 扫盲曲线需要攀爬。目前尚不清楚这是否是该车型的实际名称,但鉴于据说它具有类似赛博卡车的风格,这将是合理的。ASS(Actually Smart Summon,真正智能召唤)功能可以让你的车辆自动来到你身边,或者前往你选择的地点,完全自主。
2024-09-26 11:06:37
679
原创 OpenAI o1 开启新的scaling law?
原创 Ostring OString2024 2024年09月13日文中提到的技术报告和相应资料可以后台私信作者发送:德扑AI之父Noam Brown 2023年刚加入OpenAI,成为最新模型Strawberry 🍓的重要推手。一大早就被OpenAI o1 的发布刷屏。
2024-09-17 16:34:08
719
原创 多模态大模型
对于个人用户而言,面对海量的在线视频资源,快速准确地通过关键词或描述找到感兴趣的视频十分重要。同时,在个人存储设备如手机或网络云盘中,用户也存在检索自己拍摄录制的视频资料的需求。而对于视频剪辑师和制作团队来说,在庞大的媒资库中搜索所需的视频片段或素材是一项日常基础工作。精准高效的视频检索技术可以满足其在短时间内锁定匹配的素材,有效提升创作效率。基于大模型的自然语言视频检索多模态表征大模型能够将文本、图片、音频、视频等内容转换成高维空间中的向量表示,也称为嵌入(embeddings)。
2024-08-28 08:05:40
525
原创 GPU 片上调度系统
例如,如果内核设计为每个线程处理一个数据元素,使用 可以直接映射N个线程到N个数据元素,而不需要额外的逻辑来分配线程到数据。使用 时,每个线程的全局索引可以直接用其线程块索引表示,因为每个线程块内只有一个线程。启动大量单个线程的线程块可能比启动少量多线程的线程块更有效率,因为每个线程块的启动开销是固定的,而更多的线程块可以更细粒度地利用GPU的并行处理能力。如果内核中没有线程间通信的需求,使用 可以减少线程块内线程间通信的复杂性和开销。
2024-08-06 18:09:58
963
原创 cuda逐步优化实现reduce sum 操作
归约是一种常见的数据并行原语,它将数组中的元素通过某种二元操作(如加法)合并成一个单一的值。来演示重要的优化策略。由于规约的算术操作很简单,对算力要求不高,因此我们逐步优化目标是尽可能达到最高的带宽利用率,基本想法是:树状归约方法:在每个线程块内使用基于树的方法进行局部归约,然后需要处理如何跨线程块通信部分结果。
2024-08-05 16:12:23
746
原创 字节跳动万卡集群网络分析
从公开的信息披露,截至2023年9月,字节跳动已经建立超过一万张的英伟达Ampere架构GPU集群,目前正在建设Hopper架构的集群。英伟达Ampere架构主要包括A100和A800型号的芯片,Hopper架构相较前者则更新,主要包括H100和H800芯片字节和北大公布的论文,关于网络拓扑的描述主要是其中一章节:根据这段描述试图我们试图重现整个集群的拓扑结构单pod GPU数量为4096,多pod 通过core switch 进行全互联,可以支撑超大规模集群的scale out。
2024-06-19 22:12:22
1622
原创 智算中心带宽漫谈 -- 开篇
带宽对高性能计算是一个永恒的话题,本质上,带宽即数据交换的速率,单位时间的传输数据越多,带宽就越高,但对高性能计算来说,对高带宽的渴求永无止境,好比宏观现实世界中的车道,90年代设计的国道,对于低速的自行车和少量高速的货车来说,足以应付,但那个时代永远不会预料到,在21世纪的今天,高速的私家车会成为车道上的主要流量,因此,当时的设计已经遇到了车流量交换速率的瓶颈,在此基础上进行拓宽?面积受限,国道周围已经高楼大厦,架构已经成型,拓展空间已然被压缩。
2024-05-25 21:33:04
500
原创 GPT4o的几点想法
多模态能力: 多模态的处理能力,现在的Mixtral和各种MOE在处理多模态问题还是遇到瓶颈,实现demo状态的丝滑切换不光是要在模型层面下功夫,工程化也需要有极高的造诣,这一点不得不佩服,就演示的几个场景来看,从语音到提示打开视频识别,chatgpt切换极其自然和稳定,甚至有增加了过渡的语气和主持人开玩笑,就这个能力来看,不只是MOE expert切换能够解决的了;端到端的处理能力:这个能力的落地进一步验证了transformer的泛化能力,everything is token 的时代即将到来。
2024-05-16 22:25:01
484
原创 大语言模型的后处理
常规意义上的大模型处理流程后处理的输入是logits,其实准确说是hidden states,经过embedding table 映射后得到了最终的logits。
2024-05-10 10:18:03
553
原创 真正的AI 设备:M4 加持iPad Pro
这个配置和性价比,以及内存带宽,同时统一大内存对编程模型天然友好,对开发者来说也是一大福音, 本地跑十亿级大模型已经不是问题, iPad 设备上大模型的落地,也会进一步激发相关应用的繁荣。北京时间 5/7 晚上,Apple正式发布了其M4 芯片,其对本地化的神经网络加速是一次越级的提升,第一次落地选在iPad上进行部署,从行业的角度是一个明智的选择,相比Mac Pro, iPad 的创作属性更加纯正,也符合AIGC 目前众多落地场景中的娱乐元素。期待其他更丰富的AI 应用本地化,后续持续追踪。
2024-05-08 10:07:34
617
原创 特斯拉FSD落地分析
28/4 号的突然访华,在大多数人看来其实已经早已是计划之中,从摆在台面上的消息来看,主要目的是为了在大陆推广FSD的落地,也为8月份FSD 的正式版本做预热,和中国上海的第一次联姻造就了特斯拉model3 产能的极速提升,加速了model3 的落地,因此,FSD 是否能让特斯拉和中国再续前缘,关乎着Tesla 的股价是否能再一次起飞。从这个角度看,Tesla 是这个市场上独一无二的存在,拥有全栈FSD解决方案,同时拥有持续增长的真实道路数据,对于客户和投资者,需要时间静待花开,迎来突破曲线的拐点。
2024-05-04 22:02:47
1196
原创 聊聊服务器散热方案的演进
最近在关注美股,围观行业大佬分析NV 供应链体系,注意到一家公司VRT, 这家公司是NV 的独家液冷方案提供商。最近VRT 的股价青云直上,一家做液冷方案的公司护城河到底有多深,散热方案在整个行业中处于什么位置,这些问题是我想了解的。NV 的技术路线图从A100/H100 到最新GB200 的体系,TDP 也从300~700W 跃升到1000W 的门槛,以往的风冷方案在散热效率上显得非常力不从心。
2024-04-27 23:11:32
1389
原创 Nvidia DGX 系统分析和探讨
下图为1U 高度的NVL72 单节点实物形态,其中每个节点包含两组GB200s 系统,整合水冷散热。,也可以是一个句子(sentence),还可以是一个字符(character)。理解了肉身文字处理的原理,我们采用类似的方式让大语言模型能够理解这段中文,我们首先要按照类似的方式对这段文字进行预处理。
2024-01-24 09:29:45
1026
原创 聊聊原子弹之父:奥本海默
最近诺兰的电影奥本海默即将热映,其改编自Kai Bird和 Martin J. Sherwin的 2005 年Pulitzer Prize 获奖小说:“American Prometheus: The Triumph and Tragedy of J. Robert Oppenheimer”。这本小说作者研究奥本海默25年,才得以成形,可见奥神本人身上的故事曲折和传奇。
2023-07-30 22:59:26
300
原创 计算机科学史
经典电磁学Benjamin Franklin(1706~1790)The discovery of Electron(1897)Bohr model of HydrMatter waves are problebility waveHistory of electronic devicethe invertor of Mosfetthe first IC
2022-01-16 12:04:18
524
原创 人工智能的历史(History of artificial intelligence): AI 冬天
第一个AI 冬天在所有人对AI 充满期待时,1970 年AI 自身遇到了它难以逾越的瓶颈:有限的计算资源自然语言的处理在当时由于计算机内存的限制,只能处理20个单词问题的复杂度难以驾驭常识的推理几乎不可能完成莫拉维茨悖论(Moravec’s paradox)分帧和量化问题1970s 年代,资助AI 研究的主要机构第二个AI 冬天......
2021-01-31 19:34:42
1073
原创 mac item2+oh my zsh配置
item2oh my zshsh -c "$(curl -fsSL https://raw.github.com/robbyrussell/oh-my-zsh/master/tools/install.sh)"curl: (7) Failed to connect to raw.github.com port 443: Connection refusedgit clone git://github.com/robbyrussell/oh-my-zsh.git ~/.oh-my-zshauto
2020-07-25 23:43:04
194
原创 Leetcode summary: Binary search
34. Find First and Last Position of Element in Sorted Arrayclass Solution(object): def searchRange(self, nums, target): """ :type nums: List[int] :type target: int ...
2020-07-07 11:26:58
147
原创 装载,链接和库
相关command:1)readelf -s *.o :产看.o文件符号表2)ar -t libc.a :查看库中所包含的目标文件3) ar -x libc.a : 解压库4) gcc -static --verbose -fnobuiltin *.c : -verbose 将编译连接过程所有的过程打印出来,5) ar -t xx.a 查看库文件信息2014/11/27 1...
2020-07-06 15:59:40
336
原创 Low power AIoT by Jamie Campbell
mac operloop handlingdata handlingsynopsys arc em9d- risc core with dsp isa extensionxy memory and address generationHimaxembarc.orghimax.com/tw/products/
2020-07-06 15:58:09
317
原创 Maching Learning
Training ModelLinearGradient Descent(GD)batch GDMini-batch GDStochastic GDPolynomial Regression
2020-07-06 15:55:20
190
原创 语音交互的用户体验
突发奇想,抛出问题今天突然想到这个问题。到底怎么样的体验才是好的语音交互体验?这个问题对于语音技术开发人员可能想的很少,尤其是当前语音技术处于一个时代的风口浪尖的年代,作为从业者,每天面对者五花八门的技术需求,我们缺乏时间思考什么才是好的,合适的语音交互体验,我们疲于应对客户需求,寄希望于客户需要的就是终端用户需要的, 被动的手忙脚乱,但是,事实上,语音交互设计到的技术链条很长,语音技术提...
2020-07-06 15:52:33
757
原创 计算机系统中的并行
指令级并行( instruction level parallelism (ILP))instruction pipelinesuperscalarout of orderspeculative executionbranch prediction
2020-04-12 22:55:22
500
omnet++(tictoc 教程中文版)指南
2012-03-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人