- 博客(24)
- 收藏
- 关注
原创 视频分类的深度学习模型改为回归模型
通过修改输出层、损失函数和评估指标,可以将分类模型改为回归模型。将输出层改为全连接层,输出连续值。使用均方误差损失函数(MSELoss)或平均绝对误差损失函数(L1Loss)。修改评估指标为均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)等。这样,模型就可以用于回归任务,而不是分类任务。
2025-04-06 23:08:56
316
转载 值得准大学生们阅读学长学姐建议手册
如果你在这些方面有迷茫的话,推荐读一下这个项目里学长学姐分享的经验。当然也在这里开个楼如果有什么大学期间相关问题希望了解。我也会尽力向大家解答。上海交通大学生存手册就像我们提供了一些相关信息,涉及上课、绩点、出国、保研等系列问题。大学期间有许多约定俗成的事情是不会有人教你的,那么就需要我们自己去探索收集讯息。
2025-03-10 19:35:36
20
原创 VIT:视觉transformer|学习微调记录
vit提出了对于图片完全采用transformer结构而不是CNN的方法,通过将图片分为patch,再将patch展开输入编码器(grid_size网格大小),最后用MLP将输出转化为对应类预测。详细信息可以看下面这个分享:Vision Transformer (ViT) + 代码【详解】_vit代码-优快云博客虽然 Transformer 架构已成为自然语言处理任务的事实标准,但它在计算机视觉领域的应用仍然有限。
2025-01-02 13:12:18
1243
原创 批量归一化(Batch Normalization)
批量归一化(Batch Normalization),通常简称为BN,是一种在深度学习中常用的技术,旨在提高训练神经网络的速度、稳定性和性能。批量归一化通过规范化(归一化)处理神经网络中间层的输出,使其具有固定的均值和方差。批量归一化已经成为许多深度学习架构的标准组成部分,尤其是在卷积神经网络(CNN)中。
2024-12-19 22:00:25
743
原创 多模态机器学习综述论文|Multimodal Machine Learning: A Survey and Taxonomy
多模态机器学习是一个充满活力的领域,它通过整合多种感官模态的信息来提高人工智能的感知和理解能力。未来的研究可能会集中在提高多模态模型的泛化能力、处理模态间的时间不一致性、以及开发能够更好地利用补充信息而非仅仅是互补信息的模型。表征空间中的相似性应该反映相应概念的相似性,即使在某些模态缺失的情况下,表征也应该容易获得,最后,在观察到的模态缺失的情况下,可以填补缺失的模态。多模态机器学习是一个跨学科领域,它涉及到从多种感官模态(如视觉、听觉、触觉等)中提取信息,并构建能够处理和关联这些信息的模型。
2024-12-14 11:08:29
1291
原创 多模态抑郁估计论文研读|Multi-modal Depression Estimation Based on Sub-attentional Fusion
在此篇工作中,作者选择AVEC 2016挑战赛中最好的模型之一,并提出通过基于注意力的构建模块来融合视觉、音频和文本数据,包括一个( ConvBiLSTM )作为backbone,利用对每个个体MD子评分估计头的注意力进行。作者在DAICWOZ数据集上进行实验,与其他后期融合技术进行对比,研究了性别偏好,并在参与者级别和片段级别进一步验证。该模型具有,以便更容易实现端到端的自动抑郁评估。
2024-12-02 16:14:27
710
原创 AgentExecutor|学习笔记
内容来自极客时间-Langchain实战课,侵权请联系删除在链中,一系列操作被硬编码(在代码中)。在代理中,语言模型被用作推理引擎来确定要采取哪些操作以及按什么顺序执行这些操作。
2024-11-28 12:40:04
1502
原创 [腾讯云Cloud Studio]ai开发黑客松
文件、图片,视频资源来自[腾讯云Cloud Studio]ai开发黑客松活动,如有侵权请联系删除。
2024-11-27 19:41:46
311
原创 ReAct|学习笔记
这节课我们介绍了什么是LangChain中的代理,更重要的是,我们介绍了代理自主行动的驱动力—— ReAct框架。通过ReAct框架,大模型将被引导生成一个任务解决轨迹,即观察环境-进行思考-采取行动。观察和思考阶段被统称为推理(Reasoning),而实施下一步行动的阶段被称为行动(Acting)。在每一步推理过程中,都会详细记录下来,这也改善了大模型解决问题时的可解释性和可信度。在推理阶段,模型对当前环境和状态进行观察,并生成推理轨迹,从而使模型能够诱导、跟踪和更新操作计划,甚至处理异常情况。
2024-11-27 10:03:24
1036
原创 图像描述Image Captaining
谷歌的方法是bert,做完形填空;chatgpt更符合背诵逻辑,预测下一个文字,自回归生成。概率输出,写字还是写作?不同形式提问会被映射到相似向量。objcet-centric 生成语义框而不是实现划分好的框。1、属性分类 2、关系描述 3、用图结构 4、生成句子。预训练通常都是无监督的得到编码模型,有监督的微调。关注如何预训练,样本获取:计算机仿真合成数据。1、编码器 2、关注不同特征 3、生成式模型判断好坏,进行奖励建模。观察特征图具有一定的可解释性。大规模数据:可以避免采样误差。
2024-11-11 15:35:17
157
原创 输出解析器
先创建了一个空的DataFrame,用于存储从模型生成的描述。接下来,通过一个名为FlowerDescription的Pydantic BaseModel类,定义了期望的数据格式(也就是数据的结构)。
2024-11-10 18:55:31
1121
原创 数字字符串格式化和寻找最大葫芦| 豆包MarsCode AI刷题
葫芦”由五张牌组成,其中包括三张相同牌面值的牌 aa 和另外两张相同牌面值的牌 bb。如果两个人同时拥有“葫芦”,我们会优先比较牌 aa 的大小,若牌 aa 相同则再比较牌 bb 的大小。在这个问题中,我们对“葫芦”增加了一个限制:组成“葫芦”的五张牌牌面值之和不能超过给定的最大值 maxmax。小M在工作时遇到了一个问题,他需要将用户输入的不带千分位逗号的数字字符串转换为带千分位逗号的格式,并且保留小数部分。给定一组牌,你需要找到符合规则的最大的“葫芦”组合,并输出其中三张相同的牌面和两张相同的牌面。
2024-11-07 18:46:13
571
原创 Base32 编码和解码问题|字节青训营刷题记录2
Base32 是 Base64 的变种,与 Base64 不同的地方在于 Base64 以 6 bit 为一组作为索引,而 Base32 以 5 bit 为一组作为索引,每一组用一个 ASCII 字符表示。相比于 Base32,你可能更熟悉 Base64,Base64 是非常常见的用字符串形式表示二进制数据的方式,在邮件附件、Web 中的图片中都有广泛的应用。按照题目要求编码,反过来即为解码,注意多个组进行解码时要用到while循环(这里吐槽一下marcode把索引都打错了,有的时候还是要检查一下)
2024-11-06 15:05:29
639
原创 LangChain学习记录
当然,OpenAI还提供其它的版本,gpt-3.5-turbo-0613代表ChatGPT在2023年6月13号的一个快照,而gpt-3.5-turbo-16k则代表这个模型可以接收16K长度的Token,而不是通常的4K。另外,无论是langchain.llms中的OpenAI(Text模型),还是langchain.chat_models中的ChatOpenAI中的ChatOpenAI(Chat模型),其返回的结果response变量的结构,都比直接调用OpenAI API来得简单一些。
2024-11-02 22:51:45
145
原创 字节青训营刷题记录1
众所周知,每两周的周三是字节跳动的活动日。作为活动组织者的小 A,在这次活动日上布置了一棵 Bytedance Tree。Bytedance Tree 由 n 个结点构成,每个结点的编号分别为 1,2,3......n,有 n - 1 条边将它们连接起来,根结点为 1。而且为了观赏性,小 A 给 M 个结点挂上了 K 种礼物(0 ≤ K ≤ M ≤ N, 且保证一个结点只有一个礼物)。
2024-11-02 22:37:51
775
原创 Unity2D解谜类游戏学习记录
最近有兴趣学习一下怎么制作2D解谜类游戏,找到了m_studio大大的迷失岛游戏框架开发教程,这里是我的游戏学习笔记。将下载好的素材包放进assets里就可以开始制作了。
2024-10-18 21:25:30
816
1
原创 自然语言处理知识点整理
❖ Self-Attention:同一序列不同位置设置不同注意力权重,权重建模与其他位置关系意义:This allows the model to focus on information relevant to the current position within the input sequence.Cross-Attention:处理两个不同序列,权重建模当前输出和输入所有位置的关系。
2024-08-25 07:00:00
1485
原创 帮我满绩的多智能体系统期末开卷提纲
当R/(1-d) > (T+dS)/(1-d2)(即d > (T-R)/(R-S))时,(TFT,TFT) 为纳什均衡,合作得以维持,囚徒走出困境。当R/(1-d) > T+dP/(1-d) 即d > (T-R)/(T-P))时,(TFT,TFT) 为纳什均衡,合作得以维持,囚徒走出困境。(任意节点均与其左右k/2(偶)个邻居节点相连)k=k,L≈A/2k,C=3(k-2)/4(k-1) 聚类性,:将可能的联盟的资源和任务进行组合分配,求得相应的联盟值,用于评估联盟的收益,并根据收益进行任务分配;
2024-08-22 16:28:52
1409
原创 计算机视觉知识点整理
Model Fine-tuning:labelled->labelled,大量源数据,少量目标数据,通过源数据训练模型,在目标数据微调;优点•通用的,独立于应用程序的工具•无模型,不在数据集群假设任何先验形状(球形,椭圆形等) •只有一个参数:窗口大小h (h有一个物理意义,不像k-means)•找到可变数量的模式•对异常值鲁棒•。参数设置:初始点数量 s(最少所需拟合模型的数量直线为2,圆为3),距离阈值 t,迭代次数 N(选取 N使得,在概率为 p的情况下,至少有一个随机样本不是离群点,离群率:e)
2024-01-15 16:26:02
1888
1
用豆分类数据集微调ViT
2025-01-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人