- 博客(73)
- 收藏
- 关注
原创 大连理工大学选修课——图形学:第七章 曲线和曲面
参数法表示pptt∈01参数法优点点动成线总是能够选取那些具有几何不变性的参数曲线曲面表示形式用对参数求导来代替斜率,避免无穷大斜率t∈[0,1] ,使其相应的几何分量是有界的可对参数方程直接进行仿射和投影变换参数变化对各因变量的影响可以明显地表示出来。
2025-05-04 16:40:33
1037
原创 大连理工大学选修课——图形学:第六章 三维变换和三维观察
p′=[x′ y′ z′ 1]=p⋅T3D=[x y z 1]⋅[abcpdefqhijrlmns]p'=[x'\ y'\ z'\ 1] = p\cdot T_{3D} = [x\ y\ z\ 1]\cdot\begin{bmatrix}a & b & c & p \\d & e & f & q\\h & i & j & r\\l & m & n & s\\\end{bmatrix}p′=[x′ y′ z′ 1]=p⋅T3D=[x y z 1]⋅adhlbeimcfjnpqrs\
2025-05-04 16:37:49
865
原创 大连理工大学选修课——图形学:第五章 二维变换及二维观察
窗口:将在用户坐标系中需要进行观察和处理的一个坐标区域。视区:将窗口映射到显示设备上的坐标(NDC)区域。观察变换: 为了将窗口内的图形在视区中显示出来,经过将窗口到视区的变换处理。观察坐标系: 依据窗口的方向和形状在用户坐标平面中定义的直角坐标系。规格化设备坐标系:将二维的设备坐标系规格化到(0.0,0.0)到(1.0,1.0)的坐标范围内形成的坐标系。
2025-05-04 16:29:31
996
原创 大连理工大学选修课——图形学:第三四章 基本图形生成算法
概念:如何在指定的输出设备上,根据坐标描述,构造基本二维几何图形基本二维几何图形:点、直线、圆、多边形域、字符串及相关属性等。是在指定的输出设备上,根据坐标描述构造二维几何图形。图形的扫描转换:在光栅显示器等数字设备上,确定一个醉驾逼近于图形的像素集的过程。光栅就是德语中屏幕的意思,光栅化就是把图形画在屏幕上的过程,即将几何图形转化为像素化图像的过程。基本过程:直线段和圆是最基本的图形元素,包括以下几种算法:直线光栅化算法:DDA算法、Bresenham算法圆光栅化算法:Bresenham画圆算法、中点算法
2025-05-04 16:24:30
829
原创 大连理工大学选修课——图形学:第一章 图形学概述
随着计算机技术以及图形学技术的发展,人机界面从最原始的由指示灯和机械开关组成的操纵板界面,过渡到由终端和键盘组成的字符界面,并发展到现在基于多种输入设备和光栅图形显示设备的图形用户界面 (GUI-Graphical User Interface)。随着科学技术的迅速发展,在办公室繁琐的日常工作中,大量杂乱无章的文件数据分类、 汇总、 加工成不同要求的文字和图形报告,以及“电子邮件”通信等,都可以由价廉物美、 易于操作,具有高质量的显示设备的微型计算机系统来完成。
2025-05-04 16:10:17
973
原创 大连理工大学选修课——机器学习笔记(9):线性判别式与逻辑回归
产生式模型需要计算输入、输出的联合概率判别式模型直接构造判别式gix∣θi,显式定义判别式参数,不关心数据生成过程基于判别式的方法只关注类区域之间的边界一般认为,估计样本集的类密度比估计类判别式更困难,因为构造判别式通常采用简单的模型gix∣wiwi0wiTwi0j1∑dwijxjwi0广义上,线性判别式代表了一类机器学习模型狭义上,线性判别式仅代表逻辑回归。
2025-04-30 21:24:34
887
原创 大连理工大学选修课——机器学习笔记(8):Boosting及提升树
优点可灵活处理各类数据在相对少的调参情况下,预测准确率也可以比较高对异常值鲁棒性强。
2025-04-30 21:20:31
1431
原创 大连理工大学选修课——机器学习笔记(7):集成学习及随机森林
对于一个概念或者一个类,如果存在一个多项式学习算法可以学习它,正确率高,则该概念是强可学习的。成员学习的模型输出作为新的学习模型的输入,集成模型的数量为n,新数据集维度为n。集成学习不是特定的学习模型,而实一种构建模型的思路,一种训练学习的思想。:如果能学习,但正确率只比瞎猜略好,则称为弱可学习。如果一个问题存在弱可学习算法,则必然存在强可学习算法。建立新的学习模型:再集成学习的组合端增加一个学习模型。对弱学习模型的输出进行平均得到最终的预测输出。弱学习模型通常是单个的模型,是被集成的成员。
2025-04-30 21:16:34
1028
原创 大连理工大学选修课——机器学习笔记(6):决策树
→每个结点的决策函数都是定义在d维空间的判别式将空间有效地分为较小区域子结点对父结点确定的区域进一步分裂每个结点的决策函数是一个简单函数不同的函数确定不同的判别式形状和区域形状→可以快速确定输入的区域对于二值分类,每次决策可以排除一半的实例如果是kkk个类别,可在log2klog_2klog2k次决策后找到答案→可解释性好可写成容易理解的决策规则每个类可能存在对各分支对应的多个解释和描述这些不同的解释可能会在空间中不相交。
2025-04-30 21:13:49
1422
原创 大连理工大学选修课——机器学习笔记(5):EM&K-Means
假设数据由k个高斯分布混合生成,每个高斯分布表示一个潜在的子群或簇。我们不知道样本点x属于哪个簇,因此需要PGiP(G_i)PGi表示该点属于某个簇的概率。目标:估计模型参数miSiPGimiSiPGi挑战:存在隐变量Z(样本所属簇的标签),直接最大化似然函数困难。似然函数:不完全似然(未观测到隐变量Z(数据点所属的高斯分布))Lθ∣X∑ilog∑j1kPGj⋅pxi∣GjLθ∣Xi∑。
2025-04-30 21:04:28
1089
原创 大连理工大学选修课——机器学习笔记(4):NBM的原理及应用
choose Ci ifP(Ci∣x)=maxP(Ck∣x)choose\ C_i\ if P(C_i|x)=maxP(C_k|x)choose Ci ifP(Ci∣x)=maxP(Ck∣x)贝叶斯定理公式为P(Ci∣x)=p(x∣Ci)P(Ci)p(x)P(C_i|x)=\frac{p(x|C_i)P(C_i)}{p(x)}P(Ci∣x)=p(x)p(x∣Ci)P(Ci)其中,p(x),p(x∣Ci)p(x),p(x|C_i)p(x),p(x∣Ci)可以从训练样本中估算。后验概率是一种
2025-04-30 21:02:01
1176
原创 大连理工大学选修课——机器学习笔记(3):KNN原理及应用
如果一个样本在特征空间中的 k 个最邻近 (即最相似)的样本中的大多数属于某一个类别,则该样本也属于这个类别。→KNN的决策边界仅由靠近类别边界的样本决定,而远离边界的样本(如类别内部的点)对分类结果无影响。定义:相容子集是训练集的一个最小子集,能够保持与原训练集完全相同的分类决策边界。随机变量 x 的取值落在某个区域之内的概率则为概率密度函数在这个区域上的积分。目标:仅保留边界附近的样本(相容子集),减少计算量,同时保持模型准确性。随机变量x出现的可能性,在某个确定的取值点附近的输出值,记作。
2025-04-30 20:49:37
863
原创 SELF-REFINE: Iterative Refinement with Self-Feedback
Abstract大语言并不是总能在第一次生成内容时就产生最佳输出,作者从人类改进他们的写作的方式获得启发,提出了self-refine,一种通过迭代反馈和细化来改进llm的初始输出的方法。主要思想是:先让大语言模型生成一个初始输出,然后,用相同的大语言模型对其输出进行反馈,并同时迭代和完善自己。self-refine不需要任何有监督的训练数据,额外的训练或者强化学习,而是使用一个LLM作为生成器、细化器和反馈提供者。我们使用使用最先进的LLM,评估了7个不同的任务,从对话响应到数学推理,比使用相同L
2025-01-11 15:10:08
384
原创 LLM Unlearning:TOFU: A Task of Fictitious Unlearning for LLMs
学习和遗忘过程是交织在一起的,很难在不影响保留集表现的情况下,仅对遗忘集进行遗忘。这为未来的研究提供了动力,并在这一新的基准任务上留有很大的改进空间。在遗忘集和保留集上,计算条件概率 P(a∣q) 并对答案长度进行归一化。在真实作者和世界事实数据集上,将问题视为多项选择题,计算正确答案的概率。通过对答案进行改写和生成多个格式相似但内容错误的答案,评估模型是否仍能检索到被遗忘的信息。将各指标归一化到0到1之间,较高的值表示更好的模型效用。使用 ROUGE-L 召回分数来比较模型生成的答案与真实答案。
2024-12-09 14:56:15
1136
原创 LLM unlearn benchmark:MUSE: Machine Unlearning Six-Way Evaluation for Language Models
大语言模型利用大量的文本进行训练,其中难免包含隐私内容以及受版权保护的内容。然而在目前的模型中只遗忘这些数据点是困难的,这因此导致了许多近似遗忘算法的发展。传统的方法对于这些模型的评估范围很窄,因此本文提出了MUSE这个新的benchmark,量化算法的成功性与实用性。
2024-12-02 14:15:22
718
原创 论文解读:LONGWRITER: UNLEASHING 10,000+ WORD GENERATION FROM LONG CONTEXT LLMS
现象:当前的大预言模型可以接受超过100,000个tokens的输入,但是却难以生成超过2000个token的输出。原因:监督微调过程(SFT)中看到的样本没有足够长的样本。结果:9B参数的模型已经可以在 benchmark上取得最佳效果,只需要在模型对齐过程中具有扩展数据。
2024-08-17 12:12:42
1260
1
原创 Llama开源代码详细解读(3)
这个函数接收一个张量mask,并将其变换为特定的形状。输入三个参数分别为:mask:大小为[bsz, seq_len]。dtype:数据类型。tgt_len:目标序列长度。以下是函数的运行方式。
2024-08-05 17:21:41
610
原创 Llama开源代码详细解读(2)
FlashAttention是Tranformer模型中用于改进注意力机制的技术,主要目的是减少计算复杂度和内存占用。
2024-07-30 21:20:15
1466
原创 Llama开源代码详细解读(1):工具包
logging,utf-8是用于表示unicode字符的编码方式,是互联网标准编码之一。utf-8用1-4个字节表示每个字符。单字节的字符,第一位设为0,后面7位为该符号的Unicode码,对于英文字母,unicode与ASCII编码相同。对于n字节的字符,第一个字节的前n位均设为1,第n+1位设为0,后面字节的前两位均设置为10,剩下的没有提及的,就是该字符的Unicode码。math工具包提供了对于数学函数的访问,具体在接下来用到再说。
2024-07-29 15:32:15
946
原创 Verilog编程手把手教程——一位计数器
由于该芯片提供的原始频率为100MHz,这过于高了,所以我们需要分频器将它分频为2Hz,原理很简单,可以理解为让一个counter在原始的时钟下运行24999999次后,就让新的时钟反向,在后面的时钟我们只使用这个新的时钟就可以实现2Hz的目标。首先在Family界面找到ARTIX-7,然后在package找到csg324,再直接搜索100t,出现的结果随便选一个, 对于新手问题不大。在接下来的界面一直点击next,不用修改,直到这个界面,可以输入项目名称以及地址。
2024-06-18 16:54:46
908
原创 计算机组成原理——计算机的基本组成
第一步,将取数指令传入控制单元:PC->MAR->存储体->MDR->IR->CU。第一步,将存数指令发给控制单元:PC->MAR->存储体->MDR->IR->CU。存储字长:存储单元中二进制代码的位数,每个存储单元有一个地址。第二步:执行取数指令:IR->MAR->存储体->MDR。PC:程序计数器,用于存放当前欲执行指令的地址。IR:指令寄存器,用于存放当前欲执行的指令。将内存单元中的加数送到X中:[M]——>X。进行运算并保存:[ACC]+X——>ACC。[X]——>[MQ] (余数在ACC中)
2024-04-09 06:24:37
3731
原创 计算机组成原理——简介
计算机组成原理是计算机课程体系中唯一一门讲授的课程。我们之前学习的模拟电路,数字电路等课程均是为这门课程所做的准备,因此可见这门课程的重要性。
2024-03-25 22:00:15
213
原创 吴恩达deeplearning.ai:聚类算法
其中x代表每个数据的具体特征输入,而y代表每个特征的输出,同时包含输入和输出,那么就可以设计函数进行拟合,从而得到如图中红色线类似的拟合曲线。上图中的黄点是一些输入特征,k-means算法的第一步是会随机选择两个点,这里表现为红色和蓝色,它们可能表示的是两个不同集群的中心。在猜测完之后,算法将遍历图中所有的数据,然后计算这个数据是更接近红色or蓝色,并将它分给离它近的那个质心。今天我们要了解的算法叫做聚类算法,它的工作方式是寻找你的数据里面的特定结构,并将同一类型的结构划分到一组之中,从而完成分类。
2024-03-20 11:33:42
948
原创 ground breaking work:Gradient-Based Learning Applied to Document Recognition
This article is written by Yann LeCun who got the Turing Award in 2018, today I’d like to share one of his most significant papers with you, which give him the name the father of CNNIn the 1986s, David Rumelhart, Geoffrey Hinton and Ronald Williams publish
2024-03-17 23:22:21
827
原创 吴恩达deeplearning.ai:使用多个决策树&随机森林
我们要做的是替换采样,步骤大概是这样的:我们将所有的训练集的样本放到一个黑箱中,从中随机抽取一定数量的例子,即使重复也没关系不用放回,然后你就构建好了一个新的替换的数据集,这个数据集可能重复,也可能不包含所有数据,但是没关系,这是计划的一部分哈哈。假设我们仅仅将数据集中的一只猫替换成一只与它特征相反的猫,结果发现,树的根节点的最优选择直接变成了是否有胡须,那么甚至导致了整个决策树变得完全不同了,这样就意味着算法的健壮性不够,所以,针对这种情况,我们的解决方案是构建多棵决策树。让我们看看每种方法的适用情况。
2024-03-16 08:47:27
2382
2
原创 吴恩达deeplearning.ai:独热编码One-hot&连续有价值的特征&回归树
具体点说,就是**如果一个分类特征有k个能取的值,那么我们可以创建k个只能取0,1的二进制特征来替换它。在这个算法之中,我们创建了三个新的特征,第一个是是否有尖耳朵,第二个是是否有椭圆耳朵,第三个是是否有圆耳朵。与之前的例子相比,唯一不同的是耳朵的形状,这里耳朵的形状不再只有两种可选项,这里变成了三种,圆的,尖的,椭圆的。这意味着决策树在这里可以有三个不同的分支。在构建回归树时,我们关注的不再是熵值,即分类的纯度,而是每个叶节点的方差,如何构建能够让各个叶节点体重的方差最小,从而可以预估到最精准的体重。
2024-03-14 20:52:52
892
原创 吴恩达deeplearning.ai:纯度
我们还是以猫猫狗狗举例,假设你的猫有三只,狗也有三只,那么p1的取值就是0.5,此时的熵H(p1)最大,为1,这代表你的数据集的混乱程度最高。这节中我们了解下纯度的定义,还是猫的例子,我们知道一组例子中全是猫纯度最高,所有都不是猫,纯度也很高,但是其它的我们该如何定义纯度呢?我们先要看看熵的定义。它是衡量一组数据不纯度的标准。但是每个选择有两个分支呀,这个熵不好比较,因此我们需要加权平均,从而看出每个特征的熵的平均值,分到的数据集多的由于其对决策树的影响更大,因此权重更高,从而可以计算出每种特征选择的熵。
2024-03-11 23:35:18
892
原创 吴恩达deeplearning.ai:决策树模型
学习算法非常强大的原因之一,是其应用了决策树和树集合,尽管决策树取得了巨大的成功,但是在学术界却没有太多的研究,但它其实是你工具箱中非常有用的工具。在以下的例子中,我们将根节点选为Ear Shape,这样,我们就将其中的五种动物分到了左边。为了给读者你造成不必要的麻烦,博主的所有视频都没开仅粉丝可见,如果想要阅读我的其他博客,可以点个小小的。相信你和我的感觉一样,怎么决策树要考虑的情况这么多,没关系,我们在之后的博客之中慢慢了解这些内容。那么决策树是如何构建起来的呢,让我们看看它的学习过程。
2024-03-10 23:20:14
1041
原创 吴恩达deeplearning.ai:倾斜数据集的误差指标&精确率、召回率
假设你的神经网络需要预测一种罕见病,它在正常人群中的发病率约为0.5%,且你的数据集中只有0.5%代表你的预测为负,那么用以前的算法,你就很难估计你算法的性能,例如你有一个算法仅仅会打印1,结果它的准确度为99.5%,另一个算法预测的准确度为98%,这并不能说明下面这个算法的准确性不如上面一个算法。一种最先想到的方法是取平均值,但是这其实并不合理,因为这是一种偏向于大值的算法,如果一个算法具有低精确率和高召回率,那么很有可能是数据样本中的该数据过少导致,结果平均值算法还把该算法认为性能很好,这就不合适了。
2024-03-09 22:58:18
1130
原创 吴恩达deeplearning.ai:机器学习项目的完整周期&伦理
然后,如果你的团队已经实现了一个移动应用程序,例如一个社交应用程序,那么当用户与程序进行交谈时,移动应用程序就可以进行API的调用,将录制的音频传给服务器,服务器接收到你的数据,并在神经网络上运行获得结果,再将结果传输给你的手机app。以上步骤可能会需要多个团队来共同工作。第四,当你认为你的模型以及足够优秀了,那么你就可以部署你的模型了,也就是你的模型对用户开放使用了。这节博客中,我们主要看看构建一个机器学习的完整周期是什么,也就是说,当你想构建一个有价值的机器学习系统时,需要考虑和计划的步骤是什么。
2024-03-07 21:42:14
871
原创 吴恩达deeplearning.ai:数据增强&数据合成&迁移学习
让我们看看为你的程序添加数据的技巧。在构建神经网络的时候,我们总是想要更多的数据,但是获取更多的数据往往是十分昂贵又缓慢的。相反地,添加数据的另一种方法是专注于添加有帮助的数据。在上一篇博客之中,我们提到了垃圾邮件识别器,其中解决提高系统性能的方法之一就是添加专门的某种类型数据,从而增强神经网络的性能。如今,研究人员如果发现神经网络在某种特定的数据上表现特别差,有一种方法能够做到只添加一点点数据,就可以大幅增强神经网络的表现,这叫做。
2024-03-07 19:57:08
1441
原创 吴恩达deeplearning.ai:机器学习的开发过程与优化方法
我想在接下来分析下开发机器学习系统的过程,这样当你自己动手时,能够做出更加正确的判断。
2024-03-05 21:00:36
1222
原创 数字电路与系统(2):概述与逻辑门
逻辑门: 用以实现逻辑运算单元电路称为逻辑门电路。基本逻辑运算 – 逻辑门:与门、或门、非门。复合逻辑运算:与非门、或非门、与或非门、异或门、同或门。逻辑运算和逻辑门:二进制系统:逻辑高 ——逻辑 (1)——高电平逻辑低 ——逻辑 (0)——低电平。
2024-03-04 21:23:43
853
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人