
人工智能
文章平均质量分 73
小旺不正经
阿里云专家博主、51CTO专家博主
展开
-
人工智能大模型-数据预处理-文本数据预处理-图像数据预处理
re模块:专注于正则表达式的字符串处理,适合文本挖掘和数据清洗。numpy:提供高效的数值计算功能,是科学计算和数据分析的基础。pandas:专注于结构化数据的处理,是数据分析和可视化的核心工具。这三个库在Python生态系统中扮演着不可或缺的角色,掌握它们对于数据处理、科学计算和机器学习都至关重要。原创 2025-03-31 23:26:06 · 1050 阅读 · 3 评论 -
Transformer习题
(1) 自注意力机制的特点:(2) 位置编码的作用:(3) Transformers库主要提供的模型类别(以Hugging Face库为例):原创 2025-03-31 23:24:53 · 235 阅读 · 0 评论 -
大模型概述
大模型属于Foundation Model(基础模型)[插图],是一种神经网络模型,具有参数量大、训练数据量大、计算能力要求高、泛化能力强、应用广泛等特点。与传统人工智能模型相比,大模型在参数规模上涵盖十亿级、百亿级、千亿级等,远远超过传统模型百万级、千万级的参数规模。不同于传统人工智能模型通过一定量的标注数据进行训练,一个性能良好的大模型通过海量数据及设计良好、内容多样的高质量标注语料库进行训练。原创 2025-03-24 23:20:22 · 899 阅读 · 0 评论 -
数据预处理习题
原理:将原始灰度范围 [a,b] 映射到更宽的范围 [c,d](如0~255),公式为:效果:低对比度图像(如灰度集中在100~150)被拉伸后,暗部更暗、亮部更亮,细节更突出。局限性:若原图灰度范围已覆盖整个动态范围,则拉伸无效;可能放大噪声。原创 2025-03-24 23:17:57 · 813 阅读 · 0 评论 -
2025最新!人工智能领域大模型学习路径、大模型使用、AI工作流学习路径
人工智能学习路径原创 2025-03-18 23:43:57 · 1107 阅读 · 0 评论 -
大模型概述习题
(1)简述零样本学习的定义。零样本学习(Zero-Shot Learning, ZSL)是一种机器学习方法,模型在没有见过某一类样本的情况下,能够识别或处理该类数据。它通过利用类别之间的语义关系(如属性、描述等)来实现对新类别的推理。例如,模型可以通过学习“马”和“斑马”的描述,识别出“斑马”即使从未见过斑马的图像。(2)持续学习是不是一种增量学习方法?它的优势是什么?**持续学习(Continual Learning)**是一种增量学习方法,旨在让模型在不断接收新任务或新数据时,能够持续学习并保留之前学到原创 2025-03-13 23:13:58 · 244 阅读 · 0 评论 -
集成学习和随机森林
每个子模型只看100个样本数据每个子模型不需要太高的准确率。不使用测试数据集,而使用这部分没有取到的样本做测试/验证。虽然有很多机器学习方法,但是从投票的角度看,仍然不够多。决策树在节点划分上,在随机的特征子集上寻找最优划分特征。决策树在节点划分上,使用随机的特征和随机的阈值。提供额外的随机性,抑制过拟合,但增大了bias。集成更多的子模型的意见。针对e2训练第三个模型m3,产生错误e3…针对e1训练第二个模型m2,产生错误e2。每个子模型只看样本数据的一部分。取样:放回取样,不放回取样。原创 2024-10-09 21:38:06 · 1214 阅读 · 0 评论 -
机器学习-支撑向量机SVM
多项式核函数。原创 2024-10-08 22:20:02 · 621 阅读 · 0 评论 -
评价分类结果
对于极度偏斜(Skewed Data)的数据只使用分类准确度是远远不够的使用混淆矩阵做进一步的分析。原创 2024-02-08 23:17:52 · 600 阅读 · 1 评论 -
机器学习-逻辑回归
逻辑回归:解决分类问题逻辑回归既可以看做是回归算法,也可以看做是分类算法通常作为分类算法用,只可以解决二分类问题代码实现实现逻辑回归加载数据使用逻辑回归。原创 2024-02-08 23:17:19 · 1232 阅读 · 0 评论 -
多项式回归与模型泛化
模型误差=偏差(Bias)+方差(Variance)+不可避免的误差。非参数学习通常都是高方差算法。参数学习通常都是高偏差算法。随着训练样本的逐渐增多,算法训练出的模型的表现能力。传入poly_reg的数据 会依次执行管道的内容。算法所训练的模型过多地表达了数据间的噪音关系。大多数算法具有相应的参数,可以调整偏差和方差。有一些算法天生是高方差的算法。有一些算法天生是高偏差算法。算法所训练的模型不能完整表述数据关系。数据的一点点扰动都会较大地影响模型。通常原因,使用的模型太复杂。如线性回归中使用多项式回归。原创 2024-02-07 23:36:04 · 1069 阅读 · 0 评论 -
PCA与梯度上升法
主成分分析(Principal Component Analysis)找到一个轴,使得样本空间的所有点映射到这个轴后,方差最大。数据进行改变,将数据在第一个主成分上的分量去掉。求出第一主成分以后,如何求出下一个主成分?如何找到这个让样本间间距最大的轴?主成分个数可解释95%+的方差。在新的数据上求第一主成分。速度提高了 精度降低了。如何定义样本间间距?原创 2024-02-07 23:35:08 · 674 阅读 · 0 评论 -
机器学习-梯度下降法
并不是所有函数都有唯一的极值点代码演示梯度下降法可视化封装eta = 0.01时eta = 0.001时eta = 0.8时优化 避免死循环eta = 1.1时。原创 2024-02-06 23:21:28 · 1275 阅读 · 1 评论 -
机器学习-线性回归法
通过最优化损失函数或者效用函数,获得机器学习的模型。scikit-learn中的 r2_score。通过分析问题,确定问题的损失函数或者效用函数。样本特征只有一个,称为:简单线性回归。几乎所有参数学习算法都是这样的套路。原创 2024-02-06 23:19:53 · 1122 阅读 · 0 评论 -
人工智能基础-matplotlib基础
绘制图形绘制多条曲线设置线条颜色设置线条样式设置坐标系设置图示设置标题。原创 2024-02-03 16:47:59 · 236 阅读 · 0 评论 -
机器学习-基础分类算法-KNN详解
向量空间余弦相似度 Cosine Similarity调整余弦相似度 Adjusted Cosine Similarity皮尔森相关系数 Pearson Correlation CoefficientJaccard相似吸收 Jaccard Coeffcient。原创 2024-02-03 16:47:23 · 1457 阅读 · 0 评论 -
Pytorch-统计学方法、分布函数、随机抽样、线性代数运算、矩阵分解
distributions 包含可参数化的概率分布和采样函数。Tensor的torch.distributions。0范数/1范数/2范数/p范数/核范数。Pytorch中的奇异值分解。原创 2024-02-02 23:36:07 · 1176 阅读 · 0 评论 -
PyTorch基础-Tensors属性、Tensor的运算
返回一个标记元素是否为 finite/inf/nan 的mask 张量。标量说零维的张量,向量是一维的张量,矩阵是二维的张量。随机数 正态分布 标准分布。张量高于标量、向量、矩阵。原创 2024-02-02 22:29:10 · 1228 阅读 · 0 评论 -
人工智能基础-Numpy的arg运算-Fancy Indexing-比较
获取最小值最大值索引。原创 2024-02-01 19:35:59 · 436 阅读 · 0 评论 -
人工智能基础-Numpy矩阵运算-聚合操作
加、减、乘、除、整除幂、取余、倒数、绝对值三角函数e的x次方、3的x次方、logx、log2为底、log10为底。原创 2024-02-01 19:35:26 · 307 阅读 · 0 评论 -
人工智能基础-Numpy.array基本操作
concatenate只能合并维度一样的数据。加是copy()则不同步修改。参数为-1时自动识别个数。查看维度(元组形式)原创 2024-01-31 20:36:04 · 374 阅读 · 0 评论 -
人工智能基础-Numpy-创建Numpy数组和矩阵
查看版本array的缺点是没有将数据当做向量或者矩阵,不支持基本运算。查看数据类型对于整型来说赋值浮点数会隐式转换。原创 2024-01-31 16:06:05 · 857 阅读 · 0 评论 -
迁移混合模型-基于新数据的迁移学习预测-寻找普通苹果与其他苹果
以已经训练好的模型A为起点,在新场景中,根据新数据建立模型B。目的:将某个领域或任务上学习到的知识或模式,应用到不同但相关的领域或问题中。英文:transfer learning模型A存储了模型结构、权重系数(weights)模型B基于新数据,实现了对模型A的部分结构或权重系数的更新使用模型A,移除输出层,提取目标特征信息使用模型A的结构,重新/二次训练权重系数参数使用模型A的结构,重新训练部分层的权重系数参数不用局限于某种方式,根据情况灵活运用。原创 2024-01-23 23:22:49 · 1755 阅读 · 0 评论 -
深度学习-循环神经网络-RNN实现股价预测-LSTM自动生成文本
解决更复杂的序列任务,可以把单层RNN叠起来或者在输出前和普通mlp结构结合使用。模型结构:单层LSTM,输出有20个神经元;词汇数值化:建立一个词汇-数值一一对应的字典,然后把输入词汇转化数值矩阵。模型结构:单层RNN,输出有5个神经元;每次使用前8个数据预测第9个数据。前部序列的信息经处理后,作为输入信息传递到后部序列。序列模型:输入或者输出中包含有序列数据的模型。基于文本内容及其前后信息进行预测。做判断时,把后部序列信息也考虑。基于数据历史信息进行预测。突出数据的前后序列关系。原创 2024-01-23 21:20:14 · 1799 阅读 · 0 评论 -
深度学习-卷积神经网络
对图像矩阵与滤波器矩阵进行对应相乘再求和运算,转化得到新的矩阵。作用:快速定位图像中某些边缘特征英文:convolition将图片与轮廓滤波器进行卷积运算,可快速定位固定轮廓特征的位置计算机根据样本图片,自动寻找合适的轮廓过滤器,对新图片进行轮廓匹配自动求解W,寻找合适的过滤器一个过滤器不够,需要寻找很多过滤器池化:按照一个固定规则对图像矩阵进行处理,将其转换为更低维度的矩阵保留核心信息的情况下,实现维度缩减把卷积、池化、mlp先后连接在一起,组成卷积神经网络。原创 2024-01-22 21:04:53 · 1628 阅读 · 3 评论 -
深度学习-多层感知器-建立MLP实现非线性二分类-MLP实现图像多分类
机器学习领域中非常经典的一个数据集,由60000个训练样本和10000个测试样本组成,每个样本都是一张28*28像素的灰度手写数字图片。原创 2024-01-22 21:04:17 · 2451 阅读 · 4 评论 -
fetch failure on https://github.com/fchollet/deep-learning-models/releases/download/v0.1/vgg16_weig
用户文件夹下面.keras\models。现在完成后将文件移动到。原创 2024-01-21 15:54:04 · 414 阅读 · 0 评论 -
机器学习-模型评估优化
尝试不同的n_neighbors(1-20),计算其在训练数据集、测试数据集上的准确率并作图。拟合反应速率(rate)与温度(temperature)数据,预测85度时的反应速率。计算测试数据集对应的混淆矩阵,计算准确率、召回率、特异度、精确率、F1分数。建立模型的意义,不在于对训练数据做出准确预测,更在与对新数据的准确预测。对全数据进行数据分离,部分用于训练,部分用于新数据的结果预测。混淆矩阵,又称为误差矩阵,用于衡量分类算法的准确程度。通过混淆矩阵,计算更丰富的模型评估指标。模型训练 计算分类准确率。原创 2024-01-21 15:52:19 · 1188 阅读 · 0 评论 -
机器学习入门
让机器 去学习让机器 去执行最早的机器学习应用-垃圾邮件分辨人类学习方式机器学习。原创 2024-01-21 15:51:18 · 462 阅读 · 0 评论 -
机器学习-决策树-异常检测-主成分分析
PCA(principal components analysis):数据降维技术中,应用最最多的方法。ID3:利用信息熵原理选择信息增益最大的属性作为分类属性,递归地拓展决策树的分枝,完成决策树的构造。数据包括:雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息、外贸平衡等十七个指标。数据降维:指在某些限定条件下,降低随机变量个数,得到一组“不相关”主变量的过程。如何保留主要信息:投影后的不同特征数据尽可能分得开(即不相关)目标:寻找k(k原创 2024-01-20 17:33:34 · 2133 阅读 · 0 评论 -
机器学习之聚类-2D数据类别划分
给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居),这K个实例的多数属于某个类,就把该输入实例分类到这个类中。以空间中k个点为中心进行聚类,对最靠近他们的对象归类,是聚类算法中最为基础但也最为重要的算法。机器学习的一种方法,没有给定事先标记过的训练示例,自动对输入的数据进行分类或分群。聚类分析又称为群分析,根据对象某些属性的相似度,将其自动化分为不同的类别。一种基于密度梯度上升的聚类算法(沿着密度上升方向寻找聚类中心点)方式三:蓝眼球或不是蓝眼球。原创 2024-01-20 17:32:38 · 1760 阅读 · 0 评论 -
机器学习之逻辑回归-考试通过预测-预测芯片质量通过
逻辑回归:用于解决分类问题的一种模型。根据数据特征或属性,计算其归属于某一类别的概率P(X),根据概率数值判断其所属类别。分类:根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。分类问题,标签与预测结果都是离散点,使用该损失函数无法寻找极小值点。逻辑回归判断小明是否去看电影(余额-10、100)使用逻辑回归拟合数据,可以很好的完成分类任务!逻辑回归结合多项式边界函数可解决复杂的分类问题。线性回归的局限性:样本量变大以后,准确率下降。任务:根据余额,判断小明是否会去看电影。原创 2024-01-10 17:35:15 · 702 阅读 · 0 评论 -
机器学习之线性回归-多因子房价预测
机器学习是一种实现人工智能的方法从数据中寻找规律、建立关系,根据建立的关系去解决问题机器学习的应用场景数据挖掘、计算机视觉、自然语言处理、证券分析、医学诊断、机器人…原创 2024-01-10 17:33:38 · 1243 阅读 · 0 评论