Python
文章平均质量分 93
minstbe
目前在半导体行业扫地。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
半导体数据分析:GPR算法小白入门(四)晶圆测试数据模拟算法详解
摘要:本文提出了一种基于Python的晶圆测试数据模拟算法,通过科学建模实现真实半导体测试数据的生成。算法采用NumPy、SciPy等科学计算库,模拟了空间相关性、工艺变异等关键特征,并支持异常注入。面向对象的设计提供了灵活的晶圆参数配置,Matplotlib实现了丰富的可视化分析。该工具为半导体测试算法开发提供了高效的数据支持,解决了真实产线数据获取困难的问题。完整代码展示了从数据生成到统计分析的完整流程,具有重要的工程应用价值。原创 2025-09-27 22:44:59 · 1174 阅读 · 0 评论 -
半导体数据分析:GPR算法小白入门(二)晶体管I-V特性分析
本文介绍了高斯过程回归(GPR)在半导体晶体管IV特性分析中的应用。通过三个模块化的案例演示,展示了如何从有限噪声数据中预测完整IV曲线:1)数据生成与对数预处理;2)GPR模型配置与训练;3)预测结果可视化与评估。结果表明,GPR能有效捕捉指数级变化的电流特性,并提供95%置信区间的不确定性量化,但高电压区域存在欠拟合。文章还提出了增加数据密度、调整内核参数等优化建议,为后续的工艺参数优化和产量预测奠定了基础。该技术可应用于半导体参数提取和质量控制。原创 2025-09-24 23:15:22 · 1235 阅读 · 0 评论 -
半导体数据分析:GPR算法小白入门(一)
本文介绍了高斯过程回归(GPR)的基本概念和应用。GPR是一种基于高斯过程的非参数机器学习算法,通过建模数据点的联合高斯分布来预测连续目标变量,并能提供预测的不确定性估计。文章通过一个温度预测的Python示例,直观展示了GPR的工作原理:蓝色实线表示预测曲线,阴影区域表示95%可信区间。随着预测时间远离训练数据,可信区间会呈"喇叭状"扩大。作者还讨论了如何通过调整核函数参数来优化预测效果,包括增大length_scale使曲线更平滑、减小ConstantKernel限制可信区间宽度等方原创 2025-09-21 17:14:27 · 1249 阅读 · 0 评论 -
AI开发 - 算法基础 递归 的概念和入门(三)递归的进阶学习
前面我们通过2篇文章,一起了解了 递归,以及使用递归来解决汉诺塔问题。今天我们在这个基础上,进一步地熟悉和学习递归。这篇学习笔记将涵盖递归的基本概念、应用、优化技巧、陷阱及与迭代的对比,并通过具体的 Python 代码示例和大家一起来深入理解递归的使用。原创 2025-01-12 21:43:04 · 1227 阅读 · 0 评论 -
半导体数据分析: 玩转WM-811K Wafermap 数据集(三) AI 机器学习
前面我们已经通过两篇文章,一起熟悉了WM-811K Wafermap 数据集,并对其中的一些数据进行了调用,生成了一些统计信息和图片。今天我们接着继续往前走。当我们在处理大规模的数据集的时候,很多人都会有一种束手无策的感觉,尤其是面对海量的数据和复杂的结构时,可能会感到无从下手。我的经验就是抽丝剥茧,一步步来。实际上,通过系统化的步骤和合理的策略,我们可以有效地应对这些挑战。搞过数据分析的都知道,缺失值的检查是数据处理过程中不可忽视的一环。当我们浏览数据集时,可能会发现相当一部分数据由于缺失值而变得无用。原创 2025-01-12 20:10:28 · 2199 阅读 · 2 评论 -
半导体数据分析: 玩转WM-811K Wafermap 数据集(二) AI 机器学习
数据量:WM-811K 数据集包含约 811,457 张晶圆图。缺陷类型:数据集中标注了多种常见的缺陷模式,如中心缺陷、边缘缺陷、局部缺陷、环形缺陷等。应用场景:该数据集常用于机器学习、深度学习和模式识别任务,特别是在半导体制造中的缺陷检测和分类。find_dimfind_dim是一个函数,用来计算输入对象x的维度。这个函数接受一个二维对象(如矩阵或数组)并返回其两个维度:获取x的第一个维度(行数)。获取x的第二个维度(列数)。原创 2025-01-06 23:25:56 · 2795 阅读 · 0 评论 -
AI开发 - 算法基础 递归 的概念和入门(二)汉诺塔问题 递归的应用和使用注意 - Python
有三个柱子,分别叫做 A、B、C。某个柱子(比如A柱子)上有若干个圆盘,圆盘的大小是不同的,并且最小的圆盘在最上面,最大的圆盘在最下面。任务是将这些圆盘从柱子 A 移到柱子 C,移动时必须遵循以下规则:每次只能移动一个圆盘。每次只能将一个圆盘从上面拿走,且只能放在空柱子或者比它大的圆盘上。要求在移动过程中,柱子 B 作为辅助柱子,可以帮助转移圆盘。递归算法在解决汉诺塔问题时是非常自然且简洁的,它能够很好地展示递归的思想和分治法的应用。原创 2024-12-28 23:18:20 · 964 阅读 · 0 评论 -
AI开发 - 算法基础 递归 的概念和入门(一) 递归算法的常见应用 PYTHON
在编程中,我们常常会遇到一个概念:递归。递归是一个函数调用自身来解决问题的过程。你可以把它看作是“自我重复”的方法,用来分解复杂问题。1. 举个例子:想象你在一个楼梯上,每个台阶都有一个编号。如果你站在某个台阶上,要想知道距离地面多少个台阶,你可以做两件事:这个过程会一直重复下去,直到你到达楼梯的最底部,显然最底部的台阶距离地面是0。这就是递归的一个典型应用:每个步骤都依赖于自己前一个步骤的结果。递归的逻辑图 比如,计算阶乘(n!)就是一个递归的例子。阶乘的定义是:也就是说,n的阶乘等于n乘以(n-1)的阶原创 2024-12-28 21:00:28 · 1291 阅读 · 0 评论 -
AI开发:决策树模型概述与实现:从训练到评估和可视化 - Python
通过前面的一些练习,我们已经学习了支持向量机、 回归、 鸢尾花模型 、卷积、 知识图谱、 生成式对抗网络、 K近邻、 等AI算法的基本概念,熟悉了一些常用的AI库,并且使用PYTHON大法进行了一些实战练习。接下来,我们向更深一层的概念进军啦!今天我们来学习的是:决策树。是一种常用的监督学习算法,用于分类和回归问题。它通过一系列的决策规则将数据集划分成不同的类别或数值预测。决策树模型的主要特点是其结构类似于树形图,每个节点表示对特征的测试,每条分支代表测试结果,而叶节点则是最终的预测结果。原创 2024-12-27 23:38:39 · 3156 阅读 · 0 评论 -
WEB开发 - Flask 入门:Jinja2 模板语法进阶 Python
在上一阶段,我们一起学习了基于Python地 web框架Flask,并且初步了解了这个框架有一种渲染方式叫做 模板语法,今天,我们一起再来深入地了解和学习这个叫做Jinja2地模板语法。原创 2024-12-27 22:26:37 · 1599 阅读 · 0 评论 -
半导体数据分析: 玩转WM-811K Wafermap 数据集(一) AI 机器学习
WM-811K Wafermap 数据集是一个用于缺陷检测和分类的公开数据集,主要用于研究半导体制造过程中的晶圆缺陷分析。这一数据集由许多晶圆的缺陷模式组成,其中每个晶圆被标记为正常或存在某种类型的缺陷模式。研究人员和从业者可以利用该数据集来开发和评估机器学习和深度学习算法,以自动化地检测和识别晶圆上的缺陷模式。通常情况下,一片8英寸wafer上往往可以放置数百到上千颗芯片(die - 晶粒),具体视芯片的面积大小。原创 2024-12-26 23:01:29 · 6403 阅读 · 6 评论 -
AI开发:使用支持向量机(SVM)进行文本情感分析训练 - Python
数据预处理:加载数据,进行必要的文本处理(如分词、去除停用词等)。特征提取:将文本数据转换为数值形式(通常使用 TF-IDF)。训练模型:使用支持向量机(SVM)来训练情感分析模型。模型保存:将训练好的模型保存,以便以后使用。模型调用:加载保存的模型并进行预测。# 加载 JSON 数据# 创建 DataFrame})# 将标签转换为数字# 分割数据为训练集和测试集# TF-IDF 向量化# 训练 SVM 模型# 预测# 保存模型# 加载模型并进行预测。原创 2024-12-22 23:56:08 · 2686 阅读 · 0 评论 -
AI开发:支持向量机(SVM)鸢尾花模型入门教程- Python 机器学习
最近接触了一些数据分析的任务,越来越多地听到支持向量机(SVM), 之前我们也一起学习过今天我们再由浅入深的地来重温和学习这个AI算法,以便我们进一步掌握如何熟悉和使用这一AI大杀器。原创 2024-12-20 23:31:53 · 1549 阅读 · 0 评论 -
WEB开发 - Flask 入门:由浅入深地带你学习
Flask 是一个用于构建 Web 应用程序的框架,它提供了很多常用的工具和库,帮助你快速搭建一个 Web 服务。Flask 很小,功能也很基础,但正因为这样,你可以自由地选择自己需要的功能,而不需要为不需要的东西而困扰。原创 2024-12-20 22:56:59 · 1638 阅读 · 0 评论 -
WEB开发: 全栈工程师起步 - Python Flask +SQLite的管理系统实现
罗马不是一天建成的。每个全栈工程师都是从HELLO WORLD 起步的。之前我们分别用NODE.JS 、ASP.NETCore这两个框架实现过基于WebServer的全栈工程师入门教程。今天我们用更简单的来实现: Python。我们将用Python来实现一个学生管理应用,它包括Web服务器+管理前端+后端Api+数据库,并满足一个管理应用所具有的基本的增删查功能。由此来熟悉Phthon的webServer (Flask )应用。原创 2024-12-19 22:47:15 · 2305 阅读 · 0 评论 -
半导体数据分析(二):徒手玩转STDF格式文件 -- 码农切入半导体系列
在上一篇文章中,我们一起学习了STDF格式的文件,知道了这是半导体测试数据的标准格式文件。也解释了为什么码农掌握了STDF文件之后,好比掌握了切入半导体行业的金钥匙。从今天开始,我们一起来一步步地学习如何解构、熟悉、掌握、玩弄这个STDF。并最终尝试写一个完整的 STDF解析器,最后发布到网上成为一个公共库。了解这个文件,首先需要了解STDF的标准。我们知道,了解标准是一件很繁琐的事情,所以我们现在要做的是一步步开始,从创建和读取最简单的stdf格式的文件作为起始点,逐步探索STDF的核心。原创 2024-12-17 22:29:15 · 3660 阅读 · 1 评论 -
AI开发:卷积神经网络CNN原理初识,简易例程 - 机器学习
今天说的CNN,并不是我们熟知的美国有线电视新闻网。那什么是CNN呢? Convolutional Neural Networks, CNN)简单来说,就是用一个筛子来筛面粉的。筛子就是卷积核,面粉就是被筛的信息,晒出来的面粉就是新生成或者说被抽离的特征。有很多把筛子组成的网络一起来筛信息,就组成了一个卷积神经网络。卷积神经网络(CNN)是一种模仿人类视觉系统的算法,常用于图像和视频处理。它的基本思想是通过多个“卷积层”逐步提取图像的特征。例如,在处理一张照片时,网络首先识别图像的基本边缘或颜色,再逐渐发现原创 2024-12-08 17:40:47 · 1513 阅读 · 0 评论 -
AI开发: 知识图谱的初识,学会制作知识图谱- Python 机器学习
是一个通过图结构来表示和组织知识的工具,它将事物、概念和它们之间的关系以图的形式呈现出来,图中的节点代表实体(比如人物、地点、事件等),而边代表这些实体之间的各种关系(例如“某人是某地的居民”,“某人是某公司的员工”等)。简单来说,知识图谱就像是一个庞大的电子地图,通过它我们可以知道不同事物是如何相互联系的。:假设你有一个图谱,节点包括“马云”、“阿里巴巴”和“电商行业”。如果我们在“马云”和“阿里巴巴”之间连接一条边,标注为“创办了”,就说明“马云”与“阿里巴巴”之间有一个“创办了”的关系。原创 2024-12-05 21:20:27 · 3567 阅读 · 0 评论 -
AI开发:用模型来识别手写数字的完整教程含源码 - Python 机器学习
今天一起来学习。是一个强大的 Python 机器学习库,提供多种分类、回归、聚类算法,适用于从数据预处理到模型评估的全流程。它支持简单一致的 API,适合快速构建和测试模型。官方地址在这里,记得Mark 很有用:几天我们要使用这个库来识别一张图片中的手写数字,基本的业务逻辑如下图:这里要讲一下,AI开发应用,不需要熟知底层的模型基础技术和知识,只需要掌握库和模型的应用。我们先来看一下第一步数据加载这里定义了一个函数,作用是,供后续的机器学习模型训练和测试使用。原创 2024-12-04 22:43:43 · 1777 阅读 · 0 评论 -
AI开发:如何用Python实现文本分类 - 机器学习
文本分类是自然语言处理(NLP)中的常见任务,目标是将文本自动归类到预定义的类别中。比如,情感分析、垃圾邮件分类、新闻分类等。今天,我们一起从基础到深入,介绍如何用 Python 实现文本分类。原创 2024-12-02 22:21:14 · 1444 阅读 · 0 评论 -
AI应用 - 给自己公司开发一个竞争对手跟踪系统 (包括变现方式) - Python
根据分类和理解的结果,自动生成内容摘要,并生成相应的报表。例如,可以生成每周的竞争对手报告。# 假设使用GPT-3或其他AI模型生成摘要# 这里仅使用简单的文本截取# 示例:生成新闻摘要。原创 2024-12-01 14:42:34 · 1077 阅读 · 0 评论 -
AI开发: 什么是“模型”? 手搓一个【模型】来学习一下 - Python 机器学习
我们将演示一个非常简单的模型,具体的步骤是使用 Python 来创建一个模型,判断一个数字是否大于 5。这个模型会根据一些已经知道的数据(例如数字和标签)来进行学习,然后用它来判断新的数字。原创 2024-12-01 11:54:25 · 967 阅读 · 0 评论 -
AI开发 - 不用库,直接手写的几个AI算法介绍 Python
以上这些算法是人工智能领域中最基础且容易理解的算法,不依赖任何库,适合用于教学。这些算法的核心思想也能帮助学生更好地理解 AI 和机器学习的基本原理。原创 2024-11-30 12:09:04 · 1023 阅读 · 0 评论 -
Node.js 实战: 爬取百度新闻并序列化 - 完整教程
这个函数是用来解析百度新闻的内容的。在解析内容前,需要分析百度的网页结构,打开浏览器访问网页,然后查看源码即可。这里需要稍微有一点html的尝试,比如dom的结构 css的标签等等。这些挺简单的。比如按照关键词查找 小米手机网页结构如下,这里现找到标题的标签,再往上找到它的父DOM,就是一条完整的News DOM。需要注意的是如果以后百度新闻网页结构变化了 需要调整。原创 2024-11-30 11:22:41 · 1624 阅读 · 0 评论 -
AI开发 - GPT之魂 用Python 演示chatGPT的自注意力机制 - 机器学习
exp_x = np.exp(x - np.max(x)) # 防止溢出softmax(x):定义了一个 Softmax 函数,用于将相似性分数转化为概率值,使得它们的和为 1。Softmax 函数广泛用于神经网络的输出层,常用于分类问题中的概率预测。:对输入矩阵x做指数运算,并减去最大值np.max(x)来防止数值溢出(避免exp结果过大)。:将指数化的结果除以每行的总和,确保每行的元素和为 1。这样就得到了归一化后的注意力权重。原创 2024-11-29 21:06:25 · 1513 阅读 · 0 评论 -
AI开发:生成式对抗网络入门 模型训练和图像生成 -Python 机器学习
生成式对抗网络(Generative Adversarial Networks, GAN),名字听着就有点“对抗”的意思,没错!它其实是两个神经网络互相斗智斗勇的游戏 生成式对抗网络的应用场景相当广泛,比如半导体晶圆缺陷检测领域,医学影像疾病识别领域等等。原创 2024-11-28 22:44:50 · 1413 阅读 · 0 评论 -
AI开发:逻辑回归 - 实战演练- 垃圾邮件的识别(二)
接上一篇new_email 无论为什么文本,识别结果几乎都是垃圾邮件,因此我们需要对源码的逻辑进行梳理一下:在代码中,new_email。原创 2024-11-27 22:18:06 · 1297 阅读 · 0 评论 -
AI开发:逻辑回归 - 实战演练- 垃圾邮件的识别(一)
例如,利用深度学习模型(如GPT、BERT等)生成一些垃圾邮件内容,或者使用现有邮件数据进行一定的扰动(如随机修改一些单词或邮件主题),从而创造更多样化的训练数据。假设我们有一个简单的数据集,包含邮件的一些特征(例如:单词频率),并且我们想要预测邮件是否是垃圾邮件(1为垃圾邮件,0为正常邮件)。在实际项目中开发反垃圾邮件应用时,数据集的来源可以有多种途径,主要依赖于应用的需求、资源和数据获取的渠道。一些专门从事垃圾邮件检测和防御的公司,会提供经过清洗和标注的数据集,这些数据集经过严格审核,具有较高的质量。原创 2024-11-27 21:31:34 · 1381 阅读 · 0 评论 -
AI开发:支持向量机(SVM)入门教程- Python 机器学习
支持向量机(SVM)是一种常用于分类任务的机器学习算法。简单来说,它的目标是通过一个“最佳”分隔线(在高维空间中可能是超平面)将不同类别的数据分开。SVM的优势在于,它不仅可以进行线性分类,还能通过一种叫做“核技巧”的方法处理非线性问题。支持向量机(SVM)是一种强大的分类算法,能够处理线性和非线性问题。它的主要优势在于高效分类和抗过拟合能力,尤其适合高维数据。通过核技巧,SVM能够处理复杂的非线性问题。尽管SVM有很多调参的地方,但通过Python中的库,我们可以方便地构建和评估SVM模型。原创 2024-11-26 22:47:18 · 845 阅读 · 0 评论 -
AI开发:K-最近邻 通俗入门 - Python 机器学习
K-最近邻(KNN,K-Nearest Neighbors)是一个非常简单但有效的机器学习算法。它的基本思想是:给定一个数据点,我们根据它的“邻居”来做预测,看看它与哪些数据点相似,并根据这些邻居的标签来决定该数据点的标签。原创 2024-11-26 22:41:29 · 604 阅读 · 0 评论 -
AI开发:逻辑回归的概念 应用及开发初学- Python
逻辑回归的核心思想:通过线性模型得到分数,利用Sigmoid或Softmax函数将分数映射到概率。用途广泛:从简单的二分类到多分类问题,逻辑回归都是有效工具。设计逻辑回归的技巧:特征选择、正则化、处理数据不平衡是关键。结合实际问题,逐步调整模型的参数与输入特征,能让逻辑回归发挥更强的分类效果!原创 2024-11-26 22:30:11 · 638 阅读 · 0 评论 -
AI开发:鸢尾花模型介绍及初学者指南- Python
鸢尾花模型(Iris Dataset)是机器学习和数据科学领域经典的数据集,最初由英国统计学家 Ronald A. Fisher 于1936年提出,用于判别分析。这一数据集因其简单易用、易于可视化的特点,成为学习机器学习的入门数据集,非常适合初学者进行分类任务的实践。原创 2024-11-26 22:01:56 · 1241 阅读 · 0 评论
分享