- 博客(139)
- 收藏
- 关注
原创 【深度学习:进阶篇】--2.1.多分类与TensorFlow
2.前向传播:定义神经网络结构# 输入层:784个神经元,每个神经元接收1个像素值,x:[None, 784] [None, 28, 28]# 隐藏层:64个神经元,激活函数:ReLU# 输出层:10个神经元,激活函数:Softmaxtf.compat.v1.disable_eager_execution() # 禁用即时执行模式#创建一个名为 “mnist_data” 的变量作用域。在这个作用域内定义的所有变量都会自动带有这个前缀# 定义输入层# 定义输入层特征值占位符。
2025-04-02 22:17:22
845
1
原创 【Deepseek进阶篇】--5.AI幻觉的产生
指模型生成与事实不符、逻辑断裂或脱离上下文的内容,本质是统计概率驱动的“合理猜测”一本正经地胡说八道指模型生成的内容与可验证的现实世界事实不一致指模型生成的内容与用户的指令或上下文不一致。
2025-04-01 20:45:46
567
原创 【机器学习】--多分类(单标签)
单标签多分类问题其实是指待预测的label标签只有一个,但是label标签的取值可能有多种情况;直白来讲就是每个实例的可能类别有K种。常见算法:Softmax、KNN、决策树等。
2025-03-31 17:07:47
731
原创 【人工智能agent】--ai编程神器Trae
接下来,在了解完Trae如何使用之后,我们现在将Trae运用到实际项目当中,真实体验一下Trae在项目中的效果,我们会使用Trae开发一个ChatBot,在这过程中我们会借助Trae的能力进行AI自动编写代码、Bug修复、描述问题、同时我们还会想它获取意见(比如结合项目应该使用什么XXX库)等等,帮助大家更好的了解Trae。接下来它会自动帮你创建文件,一步一步的完成编写代码、创建文件等操作,在这过程中可能需要你运行它给出的命令,你只需点击运行即可,如果在运行命令的过程中出现任何报错它也会自动帮你修复。
2025-03-27 18:27:08
254
原创 【机器学习】--二分类
二分类(Binary Classification)是指将数据分为两类的一种分类任务。换句话说,模型的输出只有两个类别。这两个类别通常被表示为 0 和 1,或者 -1 和 1,代表两个不同的类别或状态。以下是一些常见的二分类问题:垃圾邮件检测:将电子邮件分类为“垃圾邮件”或“正常邮件”。疾病预测:根据医疗数据预测患者是否患有某种疾病(如癌症)。客户流失预测:预测客户是否会取消订阅服务。信用卡欺诈检测:判断一笔交易是否为欺诈行为。
2025-03-24 16:35:15
1073
原创 【Deepseek基础篇】--v3基本架构
DeepSeek-V3 是一款采用 Mixture-of-Experts(MoE)架构的大型:61 层:7168:18432:128:129280:163840该模型通过精细的架构设计,实现了在计算效率和性能上的平衡。
2025-03-12 21:12:04
3504
原创 【大模型理论篇】--Mixture of Experts架构
概括来看,在MoE模型中,用混合专家层替换 Transformer 模型的每个前馈网络层,混合专家层由一个门控网络和一定数量的专家组成。在MoE模型的核心是“专家”子网络。这些专家是更大神经网络中的独立模块,每个模块都能够处理输入数据。其概念是不同的专家专注于输入数据的不同方面,从而使模型能够有效利用专门的知识。门控机制是一个关键组件,负责将输入引导至适当的专家网络。它根据一组门控值来决定每个专家的参与程度。门控机制可以实现为稠密或稀疏结构,其中稀疏结构由于选择性地激活部分专家,因而在计算上更加高效。
2025-03-06 17:32:20
999
原创 【Deepseek基础篇】--2.提示语技巧到多场景应用
官网:ai.com强规范约束(操作路径明确)弱规范约束(操作路径开放)目标确定性高(结果导向,结果可预期)目标开放性高(结果多样性)线性路径(流程标准化)网状路径(多路径探索,路径灵活性)被动适配(按规则执行)主动创新(自主决策)低风险(稳定可控)高风险(不确定性高)这张表很重要,我要做笔记了,哈哈哈哈😄。
2025-03-04 19:42:21
429
原创 【大模型实战篇】--ollama部署大模型,本地调用
Ollama是一个强大的大型语言模型平台,它允许用户轻松地下载、安装和运行各种大型语言模型。在本文中,我将指导你如何在你的本地机器上部署Ollama,并展示如何使用Python进行简单的API调用以访问这些模型。最近很多人在学习大模型的时候,也遇到这个问题了,Ollama下载的模型,如果不想在命令行里面直接使用,而是想用Python去调用大模型该如何去使用?
2025-02-18 18:55:10
706
原创 【大模型实战篇】--ollama部署本地大模型(deepseek)
命令用途语法启动 Ollama 服务使用 Modelfile 创建新模型查看特定模型的详细信息或ollama ls列出本地所有可用的模型或ollama lsollama run运行一个已安装的模型ollama ps显示当前正在运行的模型列表ollama psollama rm删除一个已安装的模型ollama -v或查看 Ollama 工具的版本信息ollama -v或ollama cp复制一个模型从模型注册表中拉取模型将本地模型推送到注册表。
2025-02-18 17:34:54
703
原创 【深度学习:基础篇】--1.3.浅层神经网络
理论上来说,Leaky ReLU 有 ReLU 的所有优点,但在实际操作中没有证明总是好于 ReLU,因此不常用。注 :tanh 函数存在和 sigmoid 函数一样的缺点:当 z 趋紧无穷大(或无穷小),导数的梯度(即函数的斜率)就趋紧于 0,这使得梯度算法的速度会减慢。然而当 z < 0 时,梯度一直为 0,但是实际的运用中,该缺陷的影响不是很大。使用线性激活函数和不使用激活函数、直接使用 Logistic 回归没有区别,那么无论神经网络有多少层,输出都是输入的线性组合,与。
2025-01-20 19:51:43
915
原创 【深度学习:基础篇】--1.2.神经网络基础
由于在进行计算的时候,最好不要使用for循环去进行计算,因为有Numpy可以进行更加快速的向量化计算。
2025-01-20 19:49:43
2748
原创 【深度学习:基础篇】--1.1.深度学习介绍
过去十多年,得益于数字社会的发展,积累了大量的数据。以前的一些算法到达了瓶颈期,它们无法适用于大量的数据。轴突末梢跟其他神经元的树突产生连接,从而传递信号。深度学习算法试图从数据中学习高级功能,这是深度学习的一个非常独特的部分。首先从一个最基础的结构说起,神经元。神经元就是要模拟人的神经元结构。神经网络是深度学习的重要算法,用途在图像(如图像的分类、检测)和自然语言处理(如文本分类、聊天等)是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)结构和功能的。经典的神经网络结构包含三个层次的神经网络。
2025-01-20 19:44:17
316
原创 Bug--pytorch张量不在一个设备上
一旦确认了张量所在的设备,你需要确保所有张量都在同一个设备上。你可以使用 .to() 方法来将张量移动到目标设备。这个错误通常意味着你在 PyTorch 中尝试执行的操作涉及到了位于不同设备(通常是 CPU 和 GPU)上的张量。2.将所有张量移动到相同的设备。1.检查张量所在设备。
2025-01-13 15:36:18
332
原创 一文理解--联邦学习(0-1)
2016年,联邦学习的概念由谷歌提出,其主要思想是基于分布在多个设备上的数据集构建机器学习模型,同时防止数据泄露。此外,数据按用户ID或设备ID的数据空间中是水平区分的。为扩展联邦学习概念以覆盖组织之间的协作学习场景,我们将原“联邦学习”扩展到所有保护隐私的分散式协作机器学习技术的一般概念。在本节中,提供了一个更全面的联邦学习定义,它考虑了数据分区、安全性和应用程序,还描述了联邦学习系统的工作流程和系统架构。
2024-12-19 20:39:29
1912
原创 论文写作--SCI、中科院分区、IEEE的区别
其中,收录国内刊物222本,其中,纯中文期刊157本。(1)Proceedings是指会议论文集,会议论文集是会议上的所有论文的集合,包括会议中的各种类型的论文,如Long paper、Short paper、Poster等,会议论文集通常在会议后由组织者编辑并发行,当你引用某篇会议时,一般是Proceedings of XXXXX。—SCI与EI的区别:SCI和EI同是国际学术界权威的检索系统,两者侧重点不同,SCI自然科学类的,侧重方法原理的研究,EI是工程类的,侧重技术的实用性。
2024-12-18 21:28:16
1365
原创 python--在服务器上面创建conda环境
几乎所有命令都显示这样,然后询问师兄使用conda重新创建新的环境模块。conda create -n 虚拟环境名 python=python版本。举例:conda create -n weather python=3.9。今天刚开始使用服务器的时候使用上面的公共环境发现老师缺少模块,conda activate 环境名。1.下载anaconda安装包。2.安装anaconda。
2024-12-18 16:29:24
385
原创 CPU,GPU,TPU,NPU都是什么?
中央处理器(CPU),是电子计算机的主要设备之一,电脑中的核心配件。其功能主要是解释计算机指令以及处理计算机软件中的数据。CPU是计算机中负责读取指令,对指令译码并执行指令的核心部件。中央处理器主要包括两个部分,即控制器、运算器,其中还包括高速及实现它们缓冲处理器之间联系的数据、控制的总线。电子计算机三大核心部件就是CPU、内部存储器、输入/输出设备。中央处理器的功效主要为处理指令、执行操作、控制时间、处理数据。
2024-12-12 14:36:25
959
原创 Bug--pytorch和cpu版本不适配
应该是由于迭代更新没跟上,所以可以直接使用CUDA版本12.1的适配版本。原因:就是pytorch版本和cpu版本不适配。得到服务器的CUDA版本为12.5.
2024-12-10 16:24:21
309
原创 Bug--python模型
意思是无法访问这个网址,主要是代码会从huggingface上下载模型,但是国内又存在墙的问题。,直接把需要的模型下载到本地文件中。方法一:梯子翻墙麻烦。方法二:自己下载模型,
2024-12-03 16:05:57
513
原创 【机器学习】--10.集成学习
机器学习领域有一个强大的思路:集成学习,该方法在诸多机器学习竞赛中往往能够获得最优的结果。集成学习的基本思想实际上非常简单:三个臭皮匠顶一个诸葛亮,即将多个模型组合在一起获得的效果往往要强于单一模型。
2024-11-28 20:18:27
1070
原创 【机器学习】--5.2.岭回归+局部线性回归
平面几何表达直线(两个系数):重新命名变量:强行加一个x0=1:矩阵表达:矩阵展开:推导:为最小化该, 应对w求导, 且其结果为0。根据矩阵求导法则:于是有:解得:在我们上面求出来的最小二乘法求损失函数最小值的时候,求出来的值,但是有个问题,如多数剧中的如果是奇异阵无法求逆该怎么办。
2024-11-26 17:50:07
872
原创 1.Transformer从入门到精髓
阅读摘要:本文于2017年6月发布,属于Transformer模型的开山之作,地位不言而喻。Transformer是继于MLP、RNN、CNN模型的又一大模型,且解决了RNN应用于长输入乏力的情况,随后提出的BERT、GPT都是基于Transformer。本文主要基于机器翻译任务来讲述Transformer,近年的论文证明其在图像、文本、音频、视频都可广泛应用。参考文献:从整体角度上来说,编码器将输入序列映射到向量中,该向量保存该输入的所有学习信息。
2024-11-26 14:45:11
903
原创 【机器学习】--9.SVM支持向量机
支持向量机(Support Vector Machine,SVM)是一种二分类监督学习模型。支持向量机最早在 1964 年被提出,1995年前后理论成熟并开始被大量应用与人像识别、文本分类等问题中。它的基本模型是定义在特征空间上的,这有区别与感知机。SVM 通过核技巧变成了实质上的非线性分类器。在 SVM 中学习的目的可以理解为求解凸二次规划的最优化算法。
2024-11-25 21:59:12
1334
原创 【机器学习】--8.决策树
(⊙﹏⊙)下周有要开组会,不知道该说啥,啊啊啊啊😫提到树,我们第一反应都是数据结构中的二叉树,那么决策树又是什么?他有什么特别之处呢?决策树是一类常见的机器学习算法。按照西瓜书里给出的定义👇:这个定义看起来还是有些晦涩,通俗的来讲,决策树就是一种依赖树型结构进行决策的模型。例如,我们买西瓜的时候肯定想挑一个熟透的好瓜,一般来讲我们都有一套判断这个西瓜怎么样的标准,比如拍一拍听西瓜的声音是怎么样的?西瓜的色泽是不是鲜明的等等,我们把每个判断标准作为一个树结点,判断结果作为两个子结点连接下一个判断条件,最终
2024-11-07 22:09:22
1380
原创 七.numpy模块
NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。NumPy 的前身 Numeric 最早是由 Jim Hugunin 与其它协作者共同开发,2005 年,Travis Oliphant 在 Numeric 中结合了另一个同性质的程序库 Numarray 的特色,并加入了其它扩展而开发了 NumPy。NumPy 为开放源代码并且由许多协作者共同维护开发。
2024-11-06 17:58:45
739
原创 【机器学习】--7.K-means算法(聚类)
聚类分析是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法。与分类模型需要使用有类标记样本构成的训练数据不同,聚类模型可以建立在无类标记的数据上,是一种非监督的学习算法。聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度将它们划分为若干个簇,划分的原则就是使簇内样本相似性最大,簇与簇之间的相似性最小。
2024-11-04 21:39:06
2183
1
原创 【机器学习】--5.线性回归
1. 函数原型及参数说明这里只挑几个比较重要的参数进行说明。:bool, default=True 是否计算截距。默认值 True,计算截距。normalize:bool, default=False 是否进行数据标准化,该参数仅在 fit_intercept = True 时有效。n_jobs:int, default=None 计算时设置的任务数,为 n>1和大规模问题提供加速。默认值 任务数为 1。
2024-10-25 19:23:15
804
原创 六.python面向对象
2.1. 类的定义类的定义使用的是class关键字,语法结构如下:123className:'''类文档'''contentName为我们要创建的类的名字,注意我们在使用的时候尽量采用大写的方式,如果采用两个单词命名,两个单词的首字母都采用大写的方式。类文档为我们写入的帮助我们理解这个类的信息。content为类中的类体,包含变量、方法和属性等内容,如果我们在定义类的时候暂时不需要添入内容,可以采用pass语句充当一种占位语句。我们来定义一个类:12345class。
2024-10-24 17:10:08
583
原创 【机器学习】--4.朴素贝叶斯(分类)
sklearnalpha: 拉普拉斯平滑系数为了解决零概率的问题,法国数学家拉普拉斯最早提出用加1的方法估计没有出现过的现象的概率,所以加法平滑也叫做拉普拉斯平滑。假定训练样本很大时,每个分量x的计数加1造成的估计概率变化可以忽略不计,但可以方便有效的避免零概率问题。避免每一项为零的做法就是, 在分子、 分母上各加一个数值。(1)朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率。(2)对小规模的数据表现很好,能个处理多分类任务,适合增量式训练,尤其是数据量超出内存时,我们可以一批批的去增量训练。
2024-10-22 21:27:40
1175
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人