在指甲盖大小的芯片上动辄集成数百亿个晶体管,只要一个微小的瑕疵,数百万美元的投入就可能瞬间归零。
英伟达正用AI给这个天价难题开出新药方。
芯片制造,前人是如何控制良率的?
1833年,法拉第偶然发现硫化银晶体的导电性跟金属正好相反,温度越高,导电能力越强。这个小小的发现,就是半导体世界的开端。
后来,人们捣鼓出了点接触整流效应,拿到了“猫须”检波器(早期无线电时代用于检测无线电信号的半导体器件)的专利,直到1947年,贝尔实验室的三个天才搞出了晶体管,电子工业的时代才算真正拉开序幕。
造芯片,本质上跟在沙子上盖楼差不多,只不过这“沙子”是超纯的硅晶圆,楼是纳米级的电路结构。为了盖好这楼,得用上光刻、蚀刻、扩散、沉积等几百道工序,每一步都不能出错。
怎么知道有没有出错?
最开始,靠的是人眼。没错,就是用显微镜一个一个地看。这种方法主观性太强,而且效率极低。随着芯片上的晶体管越来越多,小到人眼根本看不见,这条路就走不通了。
后来有了光学检测工具,用机器拍照扫描,速度是快了,但稍微有点变化就认不出来,误报率高得吓人。好好的产品被它当成次品,也是一笔不小的损失。
更高级的武器是电子显微镜(SEM, TEM),能把缺陷放大到极致,看得清清楚楚。但它太慢了,一台设备一天也看不了几片晶圆,只能在实验室里做做分析,根本上不了生产线。
还有一种办法叫统计过程控制(SPC),用统计学的方法监控生产过程中的各种数据,比如腔室压力、气体流量、温度等等。这方法有点像医生看体检报告,只看那些超出正常范围的指标。可有些毛病是潜移默化的,或者是几个指标凑在一起才显现出来的“疑难杂症”,SPC就发现不了。
英伟达的AI侦探:NV-Tesseract
英伟达搞了一个叫NV-Tesseract的模型家族,专门用来处理时间序列数据。像一个超级敏感的侦探,能从一大堆看似杂乱无章的数据(比如传感器每分每秒的读数)里,嗅出不对劲的味道。

这个侦探团伙内部有明确分工,有的负责“异常检测”,有的负责“预测”,有的负责“分类”。

时间序列人工智能领域有一个基本共识,没有任何单一模型能够有效处理所有预测任务。NV-Tesseract基于这一理念,提供了一系列为不同功能优化的专用模型:
异常检测模型实时检测运营或财务异常,能够在问题升级前进行主动干预。预测模型预测未来趋势、需求波动和价格变化,以支持战略规划和资源分配。分类模型对时间序列数据进行高精度分类,减少大量人工标注的需求,提升模式识别能力。
NV-Tesseract利用基于Transformer的嵌入来有效捕捉时间序列数据中细微的长程依赖关系,即使在输入存在噪声或偏移的情况下也能保持较高的分类准确率。
其模块化架构便于与其他模型集成,能在信号不完整或不稳定的情况下提升性能。
多头注意力层使NV-Tesseract能够无缝适应突发变化,如季节性变动或市场激增,确保在动态环境下保持稳定的准确性。
在内部测试中,NV-Tesseract比那些传统的浅层神经网络、逻辑回归模型,准确率和F1分数高了5%到20%。在医疗健康领域的一个测试中,它识别血压峰值的F1分数达到了0.96,这证明了它的能力是实打实的。
将NV-Tesseract模型装进NIM
英伟达推出了NIM(NVIDIA Inference Microservices,英伟达推理微服务)。

它把那些复杂的AI模型,比如NV-Tesseract,打包成一个个即插即用的微服务。只需要像运行一个普通的软件一样,几行命令就能把NV-Tesseract系列模型部署到生产线上。
NIM内置了TensorRT、TensorRT-LLM这些英伟达自家的优化引擎,能把GPU的性能压榨到极致,实现低延迟、高吞吐量的推理。
而且你可以把它部署在任何有英伟达GPU的地方,不管是云端、数据中心,还是车间里的工作站,并可借助Kubernetes和Slurm等编排框架扩展至数百个微服务。
有了NIM,NV-Tesseract模型就可以大规模部署到工厂里。能够在单信号和多个相关传感器的时间序列中,识别出异常发生的确切时刻。
这种精细程度对晶圆厂至关重要,因为可以精确确定从哪个时间点开始晶圆可能出现故障,立即采取纠正措施,并防止损失向下游蔓延。
半导体晶圆厂会产生大量的传感器数据——压力、流量、温度和振动等,每一项数据都可能发出故障信号。几十年来,工程师们一直依赖固定阈值和手动调整的规则。然而,面对现代芯片制造中的噪声、漂移和规模问题,这些方法就失灵了。
通过NIM整合NV-Tesseract系列模型,用在半导体晶圆厂生产中,发挥出了巨大作用:
针对特定工厂数据进行微调。使模型能够使其异常定义适应单个工具、工艺或生产线。
提供用于精确率与召回率权衡的调节旋钮,以便晶圆厂能够调整检测灵敏度,以满足其运营需求。
等离子体强度、气体流量或温度的细微偏差都可能导致整批晶圆报废。通过更早发现异常,晶圆厂可以在良率受损前暂停生产、进行调整或维修。
曾经数小时未被察觉的传感器故障或校准漂移可被立即检测到,从而防止长时间停机或工具故障的连锁反应。
误报会削弱信心,而漏报异常则会影响运营。NV-Tesseract能够减少干扰,同时突出显示真实事件,这有助于建立对自动化监控的信任。
晶圆厂无需为每种工具或流程定制解决方案,而是可以轻松地在数百台机器上部署统一的异常检测功能,在加快应用速度的同时降低集成成本。
更懂制造的 AI
将AI应用到制造业的各个环节,各道工序中,已成未来发展大趋势。
例如,全球检测设备巨头KLA公司,就把AI和自家的电子束检测技术结合起来,结果误报率直接从40-50%降到了10%以下,硬件都没换。
NV-Tesseract和NIM的组合,给半导体制造打开了一扇新的大门。
不仅能实时发现问题,还能通过分析设备传感器的长期数据,AI可以预测某台机器什么时候可能会出故障,提醒工程师提前进行维护,避免生产中断。
还能分析工艺参数和缺陷数据之间的关系,告诉工程师什么样的温度、压力、化学浓度组合,才能生产出良率最高的芯片。
英伟达还计划让NV-Tesseract能够针对特定工厂、特定生产线的数据进行微调,变得更加“懂行”。
参考资料:
https://www.indium.tech/blog/traditional-vs-ai-semiconductor-defect-detection
https://developer.nvidia.com/blog/new-nvidia-nv-tesseract-time-series-models-advance-dataset-processing-and-anomaly-detection
https://developer.nvidia.com/blog/advancing-anomaly-detection-for-industry-applications-with-nvidia-nv-tesseract-ad
https://developer.nvidia.com/blog/new-nvidia-nv-tesseract-time-series-models-advance-dataset-processing-and-anomaly-detection

被折叠的 条评论
为什么被折叠?



