一、数据集回顾
前面我们已经基本了解了WM-811K Wafermap 数据集,并通过几段代码,熟悉了这个数据集的数据结构,这里为了方便各位连续理解,让我们再回顾一下:
WM-811K Wafermap 数据集是一个在半导体制造领域广泛使用的公开数据集,主要用于晶圆缺陷模式识别和分析。该数据集包含了大量晶圆图(wafer maps),这些图展示了半导体制造过程中晶圆上的缺陷分布情况。以下是该数据集的一些关键信息:
数据集概述
-
数据量:WM-811K 数据集包含约 811,457 张晶圆图。
-
缺陷类型:数据集中标注了多种常见的缺陷模式,如中心缺陷、边缘缺陷、局部缺陷、环形缺陷等。
-
应用场景:该数据集常用于机器学习、深度学习和模式识别任务,特别是在半导体制造中的缺陷检测和分类。
数据集结构
-
晶圆图:每张晶圆图是一个二维矩阵,表示晶圆上的缺陷分布。
-
标签:每张图都有对应的标签,标明缺陷的类型或模式。
-
元数据:可能包含制造过程中的其他相关信息,如工艺参数、设备状态等。
应用
-
缺陷分类:通过训练模型,自动识别和分类晶圆上的缺陷模式。
-
质量控制:帮助制造商优化工艺,减少缺陷率,提高良品率。
-
研究:用于学术研究和工业应用中的算法开发和验证。
以下是上次我们演示过的,数据集的最后5条记录:
如果你没有看过我之前的文章,建议先看一下:
半导体数据分析: 玩转WM-811K Wafermap 数据集(一) AI 机器学习_wafer dataset-优快云博客 我们接着上一篇文章来继续深入了解这个数据的结构和内容
二、基本统计
如果按照前面我们介绍的数据来计算,这个数据集收集自实际工厂的47,543个批次。但是,47,543个批次× 25个晶圆/批次=1,157,325张晶圆图比811,457张晶圆图要多出许多。为什么这个数据集实际只有811,457片wafer呢?
频次统计
从上面的图片看,每个批次(LOT)最多有25片Wafer(waferIndex <=25),so, 我们清楚地看到,最后两个批次分别是1片和2片。所以并不是每个Lot都有完整的25片wafer的!
我们通过下面的代码,来统计每个Lot中waferIndex的出现频率:
import pandas as pd # 导入 Pandas 库,用于数据处理和分析
import numpy as np # 导入 NumPy 库,用于科学计算和数组操作
import matplotlib.pyplot as plt # 导入 Matplotlib 的 pyplot 模块,用于绘图
%matplotlib inline # Jupyter Notebook 的魔法命令,使图形直接显示在 Notebook 中
# 定义数据文件的路径 -- 这是我自己的路径,每个人都不会相同,请注意
mp_file = "/data_disk/public_li