
AI
文章平均质量分 80
包含 机器学习、深度学习、CV、LLM、RAG、Agent 和 多模态
CSBLOG
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Day32上 - Agent
Agents , systems that can take actions原创 2025-01-20 19:40:57 · 519 阅读 · 0 评论 -
机器学习Day02
本质是使用向量的夹角的余弦来代表向量的相似情况。这属于广播机制,自动对齐,通过简单的行或列的复制,对齐形状,直接进行点对点计算。惰性计算(几乎没有训练过程,在推理时直接硬计算,这不属于典型的人工智能,这是数据加传统算法)因为所有数据都是以0为中心,很小的小数,所以向量的模之间的差异,没有想象中那么大。从纯数学的角度来看,一切模型都是错的。从工程的角度来看,大部分模型是有效的。其次,统计这K个邻居中,哪个类别出现的多。首先,寻找x0的K个最近的邻居。我们现在写的不是代码,都是数学,底层跑的都是C++。原创 2024-09-13 15:36:11 · 683 阅读 · 0 评论 -
Day07-机器学习
机器:machine 不是机器设备,而是“计算机软硬件组织”学习:learn有监督学习 supervised learning无监督学习 unsupervised learning。原创 2024-10-11 10:40:39 · 1038 阅读 · 0 评论 -
机器学习Day03
模型优化。原创 2024-09-22 09:06:00 · 1337 阅读 · 0 评论 -
机器学习Day04(下)
把所有特征中重要的成份抽出来,再注入到几个新的特征中,新生成的特征不是原来的任何一部分。(原地解散,根据实际需要,重新招人)干掉一部分不重要的特征,保留一部分重要特征,剩下的特征还是原来的一部分。样本不均衡时,特别是深度学习模型,该指标有欺骗性。样本均衡时,可靠,不同类别的样本,数量上不会相差太多。初始化(rough start)(普适性);2. 要有一个逐步变好的策略(优化细节);3. 要有一个退出的条件(适时退出)。采用迭代的思想来解决,有三个重点。问题不能一步到位的解决。原创 2024-09-30 08:12:11 · 935 阅读 · 0 评论 -
机器学习Day01
偏抽象的概念,是计算机解决问题的步骤和流程。偏具体的概念,用代码去实现某一个算法!y = f(x)x:是样本的特征y:是样本的标签把x映射为y。原创 2024-09-08 10:07:33 · 862 阅读 · 0 评论 -
机器学习Day04(上)
构建了一个稀疏矩阵(大量的0,少数的有用数据)人口统计学信息(user表中):年龄、性别、学历、婚姻……本质上:把离散变量当做连续变量处理了。但是会潜在引入状态大小问题。特征之间距离相等,互相垂直。一个特征变成N个特征。业务信息:购买记录、浏览记录……准确率 Accuracy。拿到数据后,无法判定哪些特征有用,哪些特征没用。历史数据:大量留存的用户 + 大量流失的用户。对于离散型变量,都是非数字的标准格式。数据级不同,量纲不同。先去发育一段时间,搞一些原始的累积。有了这些历史数据,才能谈优化发展。原创 2024-09-28 20:38:04 · 432 阅读 · 0 评论 -
机器学习-常用数学基础(一)
单个数据,如1,2,3,4。 向量是一个有方向有大小的量,通常表示为由数值排列成的一维数组。 一维数组,将多个标量按照一定的顺序排列成一行或一列,如:[1,2,3,4]。 向量通常使用小写字母加粗体来表示,如x, a, b, v, u。 向量的长度叫模长,模长是一个映射,它把一个n维的向量变成了实数。 “模”字本身有标准、规范的意思。比如模型、模具这种词,就是一种标准的容器。而“范”字也有模子的意思,所以这两个原创 2024-09-16 12:37:08 · 1159 阅读 · 0 评论 -
机器学习Day05(上)
不能一次搞定。原创 2024-09-30 16:17:44 · 755 阅读 · 0 评论 -
机器学习Day06
【代码】机器学习Day06。原创 2024-10-03 11:43:45 · 239 阅读 · 0 评论 -
机器学习Day05(下)
3. 测试安装,打开jupyter notebook,输入代码。实际工作中,数据量非常大,两者没什么区别,随便用即可。参与计算的数据,必须存在相同的设备中。2. 在终端窗口内,输入命令进行安装。1. 打开ANACONDA命令窗口。这就是理论数学和工程数学的区别。原创 2024-10-02 09:47:00 · 600 阅读 · 0 评论 -
Transformer介绍(二):注意力机制
如果由fluffy和blue生成的键,确实与creature所产生的查询高度对齐,那么这2个位置的点积就会是较大的正数,用机器学习中的术语说,fluffy和blue的嵌入(embedding)注意(attention)到了creature的嵌入(embedding)。例如,GPT-3每个模块内使用96个注意力头,这意味着有96个不同的键和查询矩阵,产生96种不同的注意力模式,然后每个注意力头都有独特的值矩阵,用来产生96个值向量序列,全部都将以对应注意力模式作为权重,分别进行加权求和。现在我们只关注名词。原创 2024-11-11 13:57:14 · 1530 阅读 · 0 评论 -
Day15上 - RNN、LSTM、GRU、情感识别
所有的网络都是在处理特征,这是人工智能的核心问题,不论是全链接、卷积、循环和transformer,它们都是在处理特征,所以我们只关注特征的维度。③ Linear 分类。1. 输入:65个词。2. 输出:2个分类。原创 2024-11-13 18:43:09 · 925 阅读 · 0 评论 -
AI大模型(二):AI编程实践
如何通过GPT的指导,使不会代码的人从0-1实现开发需求原创 2024-11-15 16:07:17 · 1896 阅读 · 0 评论 -
GPU云环境的使用
A:趋动云环境中,/gemini/code目录是可以保留数据的,即服务关闭再打开,该目录下的数据是保留上次的。不过,建议重要的数据、代码在本地维护保存,云环境只作为临时环境训练模型使用。同上,对于体积小的数据,可以直接使用图示中的上传文件功能。训练完毕后,会在训练脚本同一目录下生成runs目录,里面包含训练的日志,以及训练的模型。上传数据集:点击【修改】-【创建数据】,编辑完信息,点【创建】,然后上传文件。配置相应的训练参数后,运行训练代码,即可开始训练。配置相应的训练参数后,运行训练代码,即可开始训练。原创 2024-11-20 20:08:35 · 1492 阅读 · 0 评论 -
Day11 - YOLO实例:手势识别
【代码】Day11 - YOLO实例:手势识别。原创 2024-11-20 23:46:17 · 364 阅读 · 0 评论 -
神经网络中常见的激活函数Sigmoid、Tanh和ReLU
激活函数输出范围优点缺点应用场景Sigmoid(0, 1)输出具有概率意义梯度消失,非零中心化二分类问题的输出层,逻辑回归Tanh(-1, 1)零中心化,更好的梯度传播梯度消失隐藏层,RNN 中ReLU[0, +∞)避免梯度消失,计算简单,引入稀疏性死亡 ReLU 问题,非零中心化隐藏层,DNN、CNN、GAN。原创 2024-11-30 16:27:36 · 1745 阅读 · 0 评论 -
Day08上 - 深度学习,图像读取与保存
需要手动去操控Numpy数组。没有内置图像处理的功能。原创 2024-10-15 11:46:07 · 816 阅读 · 0 评论 -
Day14 - CV项目实战:SAR飞机检测识别
第一排的7张图片,普通人肉眼很难看出对应的是第二排的飞机。还有上图里标注的飞机,外行根本看不明白,为什么这些是,其他的不是。作为一个外行,问题似乎很严峻,从图里根本识别不出来哪里是飞机,也没法标注。其实,在面对各行业问题的时候,经常会遇到这种问题,感觉可能搞不定。但是没关系,很多东西是反直觉的,这个任务真正做起来不难。首先,目标检测的标注是非常重要的。原创 2024-11-13 10:47:21 · 1708 阅读 · 3 评论 -
机器学习:波士顿房价预测
data。原创 2024-10-17 11:38:57 · 1335 阅读 · 0 评论 -
OpenCV基础
OpenCV(Open Source Computer Vision Library)是一个开源的计算机视觉库,广泛应用于图像和视频处理、计算机视觉、机器学习等领域。原创 2024-11-16 22:27:46 · 1195 阅读 · 0 评论 -
AI人群 & 数据操作简介
N维数组是机器学习和神经网络的主要数据结构。原创 2024-10-29 16:47:34 · 389 阅读 · 0 评论 -
Transformer介绍(一)
Transformer是一种特殊的神经网络,一种机器学习模型。谷歌在2017年推出的原版Transformer,论文《Attention Is All You Need》,专注于将一种语言的文本翻译成另一种。而我们要关注的Transformer变种,即构建ChatGPT等工具的模型,则是输入一段文本、图像或音频,预测文本接下来的内容,并将结果展现为,接下来不同文本片段的概率分布。原创 2024-11-09 18:22:42 · 2399 阅读 · 0 评论 -
怎么读论文 - AlexNet论文解读
这个摘要大致表达的意思是,我训练了一个很大的神经网络,在这个数据集上,我们比第二错误率好很多。从摘要来看,有点像技术报告,可能不是那么好的论文,但看最后一句,他的结果非常的好,所以这时一般会选择往下看。然后直接跳到最后,结果发现没有conclusion结论部分,但有一个讨论。一般讨论是说未来要干什么事情,而结论是跟摘要一一对应。Discussion部分大致是说,我们网络的性能会往下降,去掉一层会降2%,所以深度很重要。接下来,我们去看文中一些重要的图和公式。用的这些测试图片可以看到分类的效果如何。原创 2024-11-08 20:34:01 · 1371 阅读 · 0 评论 -
OpenCV、YOLO、VOC、COCO之间的关系和区别
VOC(Visual Object Classes)是由英国牛津大学计算机视觉组(Oxford Visual Geometry Group)创建的一个图像数据集。VOC数据集是计算机视觉领域最早的一个重要标准数据集之一,广泛用于图像分类、物体检测、语义分割等任务。VOC数据集包括多个子任务,最常见的是。原创 2024-11-16 22:45:07 · 3264 阅读 · 0 评论 -
AI Agents - 自动化项目:计划、评估和分配
1.本地文件helper.py。原创 2024-10-30 10:48:41 · 389 阅读 · 0 评论 -
机器学习项目实例:如何预测客户是否流失
一、项目分析一、项目分析1. 项目背景在当前竞争激烈的市场环境中,企业与客户的关系日益复杂且多变。为了更好地了解客户行为模式,预测哪些客户可能流失,哪些客户可能继续留存,本项目旨在通过机器学习,构建客户流失预测模型。这不仅能够帮助企业及时识别潜在流失客户,采取相应的挽留措施,还能提升企业的客户忠诚度和市场竞争力。2. 可行性分析。原创 2024-10-12 16:29:50 · 1653 阅读 · 0 评论 -
机器学习基础梳理
训练有标签值样本数据,并得到模型,通过模型对新样本进行推断。原创 2024-10-30 14:13:28 · 1018 阅读 · 0 评论 -
AI大模型(一):Prompt & AI编程
"""1. 任务描述"""你的任务是识别用户对手机流量套餐产品的选择条件。每种流量套餐产品包含三个属性:名称、月费价格和月流量。根据用户输入,识别用户在上述三种属性上的需求是什么""""""2. 用户输入"""办理100G的套餐"""# prompt模板,instruction和input_text会被替换为上面的内容用户输入:{input_text}""""""3. 调用大模型"""不管是个人还是企业,都能借用AI提效。原创 2024-11-15 12:33:35 · 1871 阅读 · 0 评论 -
Transformer(三):论文 Attention Is All You Need
transformer模型仅依赖于注意力机制,没有使用之前的循环或卷积。作者做了2个机器翻译的实验,显示了这个模型在性能上特别好,并行度很好、且训练时间更少。在英语到德语的翻译工作,我们比目前最好的结果,好了2个BLUE。在英语到法语的翻译任务上,做了一个单模型。比所有的模型效果都好。只在8个GPU上训练了3.5天。transformer架构能够泛化到别的任务上,都很好。作者提出了一个新的模型,主要用在哪呢,用在机器翻译的任务上。原创 2024-11-12 15:51:08 · 1071 阅读 · 0 评论 -
Day08下 - 卷积
按维度定义和处理数据。BatchNorm层。原创 2024-10-15 16:18:59 · 442 阅读 · 0 评论 -
Day16 - 时序信号预测
选择合适的预测方法取决于数据的特点、预测目标、计算资源等因素。预处理时序数据是确保模型能够有效学习和预测的关键步骤。预处理的目的是清理数据、增强信号并减少噪声,从而提高预测模型的性能。选择合适的时序预测模型和预处理策略是一个动态迭代的过程,需要结合数据特性、业务需求以及计算资源等多个因素不断地试验和优化,可通过以下步骤,逐步找到最符合场景的解决方案。这在很多领域都有广泛的应用,比如金融市场的股票价格预测、销售量预测、天气预报等。时序信号预测是指根据时间序列数据的历史记录来预测未来值的过程。原创 2024-12-08 10:05:50 · 409 阅读 · 0 评论 -
Day27 - 大模型微调,LLaMA搭建
例如,在构建聊天机器人时,可以使用 LangChain 来搭建机器人的架构、整合各种API和服务,同时精心设计 Prompts 来确保机器人能够准确理解和回应用户的提问。通过不断地测试和优化 Prompts,提升对话的质量,使机器人更加智能和自然。LLaMA-Factory/data/identity.json ,编辑模式打开该文件,修改{{name}}和{{author}},来改变模型的自我认知。微调的核心是要去设计非常好的指令格式 ,指令格式的设计与上层开发是配套的。如何修改模型的自我认知?原创 2024-12-19 16:33:41 · 986 阅读 · 0 评论 -
神经网络中的参数(Parameter)和超参数(Hyperparameters)
在神经网络中,参数(Parameter)和超参数(Hyperparameters)是两个不同的概念,它们在训练模型时扮演着不同的角色。原创 2024-12-02 16:03:55 · 1389 阅读 · 0 评论 -
Day26下 - 大语言模型的 训练train 和 微调fine-tune 的区别
大部分微调都把模型给整废了,而不是越来越好。厂家发布的模型半真半假,一般发布的都是最好的模型,咱们拿来整废了是常态,训练好是一件不太容易的事情。没有万能公式一步到位,是个不断炼丹尝试的过程,比较玄学。原创 2024-12-18 16:38:19 · 978 阅读 · 0 评论 -
深度学习试题及答案解析(一)
在深度学习中,涉及大量的矩阵相乘,现在需要计算三个稠密矩阵。激活替换为线性激活,那么这个神经网络能够模拟出同或函数。为什么在较小的数据集上更容易出现过拟合现象?在时间序列的背景下,什么是噪声?,以下计算顺序效率最高的是()的最大池化,请问输出是多少?假设三个矩阵的尺寸分别为。当增大正则化的超参数。的神经网络,假如我们把。的输入,并使用步幅为。原创 2024-12-18 22:57:28 · 856 阅读 · 0 评论 -
Day26上 - 大模型的处理流程
1. Encoder-Only:双向注意力,(类似:双向RNN)前置操作:打开ModelScope GPU环境,下载模型文件。2. Decoder-Only:单向注意力(类似:RNN)4. 向量化 embedding。5. 位置编码 encoding。1. 用户进行提问 query。2. 套模板,格式化输入。7. 输出层,输出结果。原创 2024-12-16 17:36:26 · 867 阅读 · 0 评论 -
Day17-19:Seq2Seq核心思想、原理与实战、模型训练推理
【代码】Day17-19:Seq2Seq核心思想、原理与实战、模型训练推理。原创 2024-12-12 19:15:53 · 386 阅读 · 0 评论 -
Day29 - 大模型RAG,检索增强生成
【阿里云】-【产品】-【人工智能与机器学习】-【大模型服务平台百炼】原创 2025-01-05 22:39:03 · 783 阅读 · 0 评论 -
深度学习试题及答案解析(二)
混沌度可以被理解为模型在预测下一个词时的平均分支数。具体来说,它是基于模型的概率分布计算出来的,用来评估模型生成的分布与真实数据分布之间的差异。对于一个包含 (N) 个词的句子ww1w2wNww1w2wN,如果有一个语言模型 (P(w_i | w_{原创 2024-12-21 01:17:25 · 1669 阅读 · 0 评论