
neural network
文章平均质量分 94
train neural network on datasets
香蕉也是布拉拉
email: yuhan.huang@whu.edu.cn
logs: https://pilipala5.github.io
github:https://github.com/pilipala5
展开
-
LLM | 论文精读 | NAACL 2025 | Clarify When Necessary:教语言模型何时该“问一句”再答!
论文核心内容如下:✅ 提出一个“判断何时澄清”的三阶段框架📊 横跨 QA(问答)、NLI(自然语言推理)和 MT(机器翻译)三个任务验证方法通用性💡 设计 INTENT-SIM 方法,通过模拟用户意图,评估是否需要提问澄清🏆 实验显示,INTENT-SIM 显著优于传统的模型置信度估计方法原创 2025-05-20 10:48:56 · 806 阅读 · 0 评论 -
LLM | 论文精读 | COLM 2024 | STaR-GATE :教会大语言模型如何主动追问
STaR-GATE 的核心目标就是:训练一个语言模型,让它在面对模糊的任务或用户请求时,学会主动提问,弄清楚你到底想要什么,再给出个性化回答。原创 2025-05-19 13:01:21 · 555 阅读 · 0 评论 -
LLM | 论文精读 | Spatial-RAG:于空间检索增强生成的真实世界空间推理框架
空间数据的结构化特性空间数据通常以几何形状(如点、线、多边形)存储在空间数据库中,需要通过专业的 SQL 查询语言进行检索。用户可能希望在特定区域内找到满足条件的目标(如“寻找离我最近的餐厅”),这需要模型能够理解并处理几何约束。自然语言的非结构化特性用户的查询通常是自然语言形式,包含模糊或复杂的空间意图。例如,“在从家到公司途中推荐一个可以快速吃午餐的地方”。传统的空间查询系统无法直接解析自然语言,而 LLMs 对几何概念的理解能力有限。空间与语义的结合。原创 2025-03-08 01:03:28 · 792 阅读 · 0 评论 -
LLM | 论文精读 | GIS Copilot : 面向空间分析的自主GIS代理
Temitope Akinboyewa,Zhenlong Li,Huan Ning,M. Naser Lessani等arXiv在地理信息系统(GIS)领域,生成式人工智能特别是大语言模型(LLMs)的出现为空间分析带来了革命性的可能。原创 2025-03-05 14:20:37 · 1201 阅读 · 0 评论 -
LLM | 论文精读 | CVPR | PEACE : 通过多模态大语言模型(MLLMs)赋能地质图全面理解
地质图以图形化方式展示地质特征,是地质学家研究地球历史、资源分布和自然灾害的重要工具。标题:标识物理区域、地图类型、作者等信息。比例尺:展示地图与实际地面距离的关系。图例:解释岩石类型、地质年代和地质特征的符号和颜色。主地图:显示区域的地质特征,包括岩石分布、褶皱和断层。索引图:显示与邻近区域的关系。剖面图:提供地表下岩层排列的垂直切片。地层柱状图:展示区域内岩层的序列、厚度和类型。原创 2025-03-04 00:25:57 · 1314 阅读 · 0 评论 -
LLM | 论文精读 | CVPR | FairCLIP:追求视觉语言学习中的公平性
数据集包含了10,000名患者的记录,每条记录包含一张扫描激光检眼镜(SLO)眼底图像和一份临床笔记,这些记录用于青光眼的诊断。该数据集包含丰富的受保护人口统计属性,例如年龄、性别、种族、民族、语言偏好和婚姻状况。不同于常见的放射学报告,该数据集的临床笔记不仅记录了影像描述,还提供了如药物、非影像测试结果和家族病史等详细的临床信息,使其更符合典型的临床文档。数据集发布:提出了数据集,该数据集用于医疗领域VL模型的公平性研究,包含了丰富且详细的人口统计学信息。基于Sinkhorn距离的优化方法。原创 2024-11-25 15:50:57 · 802 阅读 · 0 评论 -
LLM | 论文精读 | CVPR | Alpha-CLIP —— 一个聚焦目标区域的CLIP模型
论文标题:Alpha-CLIP: A CLIP Model Focusing on Wherever You Want。作者:Zeyi Sun, Ye Fang, Tong Wu, Pan Zhang, Yuhang Zang等。期刊:CVPR 2024。原创 2024-11-21 14:09:43 · 1695 阅读 · 0 评论 -
LLM | 论文精读 | CVPR | 基于问题驱动图像描述的视觉问答增强引言
本文提出了一种增强视觉问答(VQA)性能的新方法,通过生成问题驱动的图像描述作为中间步骤,将上下文信息有效融入到问答过程中,尤其在零样本场景中展现出显著的优势。研究通过关键词提取技术使描述与问题紧密结合,从而提高了模型的理解和推理能力。实验结果表明,问题驱动的描述对提升多种问题类型的回答准确性效果显著,特别是在验证和属性类问题上。未来工作将着眼于更大规模语言模型的集成和对模型可解释性的提升。原创 2024-11-08 17:03:54 · 1346 阅读 · 0 评论 -
LLM | 论文精读 | AAAI | EarthVQA:向可查询地球迈进的多模态视觉问答研究
EarthVQA 是一个用于地球遥感场景理解的多模态视觉问答(VQA)数据集,包含 6000 幅高分辨率遥感图像及 208,593 对问答对。该项目旨在推动复杂地理场景中对象关系推理的研究。为此,我们提出了对象感知的语义框架(SOBA),通过深度语义分割和混合注意力机制提升模型性能。在实验中,SOBA 在对象计数和关系推理任务上表现出色,显著优于现有方法。本文详细介绍了 EarthVQA 数据集设计、SOBA 框架的构建及各模块的性能贡献,为遥感信息智能化提供了新方向。原创 2024-11-03 23:29:09 · 1444 阅读 · 0 评论 -
LLM | 论文精读 | CVPR | SelTDA:将大型视觉语言模型应用于数据匮乏的视觉问答任务
本文提出了SelTDA(Self-Taught Data Augmentation)方法,用于在数据稀缺的视觉问答(VQA)任务中增强大规模视觉语言模型(VLM)的性能。SelTDA通过教师模型生成图像的伪标签(问题和答案),然后用这些标签对学生模型进行训练,实现了在无需额外人工标注的情况下扩充数据集。该方法主要包括教师模型训练、伪标签生成和学生模型微调三个步骤。实验结果表明,SelTDA不仅提升了模型在数据稀缺任务中的表现,还显著增强了其跨领域泛化能力和数值推理能力。原创 2024-11-02 20:37:25 · 2691 阅读 · 0 评论 -
LLM | 论文精读 | 地学视觉语言大模型:Towards Vision-Language Geo-Foundation Model: A Survey
Towards Vision-Language Geo-Foundation Model: A SurveyYue Zhou, Litong Feng, Yiping Ke, Xue Jiang, Junchi Yan, Xue Yang, Wayne Zhang未提供。原创 2024-10-31 22:57:06 · 1427 阅读 · 0 评论 -
LLM | 论文精读 | NeurIPS 2023 | SWIFTSAGE: 结合快思考与慢思考的生成智能体
SWIFTSAGE的目标是通过结合快思与慢思两个模块,来实现复杂交互任务的高效解决。SWIFT 模块:这是一个小型的编码-解码语言模型,通过模仿学习对其进行微调,用于模拟人类的直觉思维。它能够快速解码出下一个动作,适合简单且直接的任务。SAGE 模块:使用类似于 GPT-4 的大型语言模型,模拟深度分析的推理过程。规划阶段和执行阶段。规划阶段负责生成高层次的任务建议,执行阶段则将这些建议转化为可执行的具体操作。原创 2024-10-28 01:42:42 · 1135 阅读 · 0 评论 -
LLM | 论文精读 | 基于LLM的智能体的崛起与潜力(The Rise and Potential of Large Language Model Based Agents: A Survey)
基于大型语言模型的智能体通过大脑、感知和行动三个模块,展现了强大的自然语言交互和环境感知能力。无论是在单一应用还是在多智能体协作、人与智能体交互方面,LLM智能体都表现出了巨大的潜力。尽管面临挑战,但未来的智能体将会更加智能化、自动化,并且在人类的日常生活中扮演越来越重要的角色。原创 2024-10-25 19:07:00 · 1015 阅读 · 0 评论 -
LLM | 论文精读 | 基于大型语言模型的自主代理综述
基于大型语言模型的自主代理综述原创 2024-10-25 14:03:02 · 1329 阅读 · 0 评论 -
LLM | Hugging Face | 如何利用几句代码实现强大的AI效果(pipeline)?
pipeline()是 Transformers 库中一个高层次的 API,用于快速加载模型并执行推理任务。无论是文本分类、情感分析,还是机器翻译,甚至是语音识别,pipeline()都提供了一个简便的方法来进行处理,无需开发者手动加载模型、分词器或特征提取器等。原创 2024-10-20 14:33:17 · 824 阅读 · 0 评论 -
LLM | Hugging Face | 微调属于自己的大模型(Fine Tuning)
利用hugging face进行模型微调原创 2024-10-15 01:23:15 · 1393 阅读 · 0 评论 -
LLM | Tokenization 从原理与代码了解GPT的分词器
GPT Tokenizer原理与代码原创 2024-10-11 00:24:46 · 1486 阅读 · 0 评论 -
State of ChatGPT ---- ChatGPT的技术综述
关于预训练、微调、强化学习... 引导入门把,技术细节不是很深入。原创 2024-10-06 23:31:50 · 1229 阅读 · 4 评论 -
Transformer从0阅读,从原论文《attention is all you need》开始向你深入浅出的解释注意力机制与Transformer -- 架构补充与广播机制
Transformer中的掩码与整体结构,详细解释广播机制原创 2024-08-24 20:03:06 · 1125 阅读 · 0 评论 -
Transformer从0阅读,从原论文《attention is all you need》开始向你深入浅出的解释注意力机制与Transformer,并利用Pytorch进行复现 -- 架构实现篇
从论文开始了解注意力机制与transformer,并复现原创 2024-08-19 20:31:35 · 794 阅读 · 0 评论 -
Decision Tree Regression决策回归树原理与代码实现,并与MLP进行对比(Pytorch), sklearn,numpy(超级详细,0基础!)
今天我们继续学习决策树,对于决策树中的回归树,我们进行原理的讲解与案例的实现,与此同时,我复习了一下MLP的Pytorch实现,其中并没有调用太多的库函数,大家应该也能看懂。我们对比一下两个模型的效果,发现对于非线性的拟合,神经网络的效果还是明显优于决策树。原创 2024-08-13 14:03:05 · 1354 阅读 · 0 评论