三月七꧁ ꧂-优快云博客

原创 LLM面试题14

科技算法岗面试题共涉及七道，涵盖深度学习多个方面。包括BN层参数、softmax与交叉熵损失计算、大数处理、优化器对比、Resnet结构差异、L1与L2范数区别及二分查找求平方根。重点考察了softmax函数与多分类交叉熵损失函数的计算、缓解梯度消失的方法、Transformer与CNN的区别等深度学习核心知识，以及二分查找等基础算法能力。此外，还涉及了模型结构选择、优化器性能对比、范数特性理解等高级话题。

2025-07-02 09:11:54 905

原创 LLM面试题13

本文总结了算法岗面试中的核心知识点，涵盖机器学习与深度学习相关内容。在机器学习方面，详细解析了层次聚类的自下而上算法流程、XGBoost相比GBDT的6项改进（如二阶泰勒展开、正则项等）。深度学习部分重点讨论了ResNet的残差结构、Batch Normalization的scale/shift机制、LSTM的三大门控结构及激活函数使用，以及梯度消失/爆炸的三大成因。对Transformer模型，深入探讨了权重共享原理、self-attention的QKV矩阵必要性、BERT的15%掩码比例选择原因、[CL

2025-07-02 09:08:16 613

原创 LLM面试12

本文整理了AI算法岗位面试中的核心知识点，涵盖机器学习、深度学习框架、模型优化和编程算法等内容。关键技术点包括：SVM核函数特性（高斯核可映射无穷维）、XGBoost原理（GBDT优化版，二阶泰勒展开）、CNN与Transformer架构差异（局部特征vs全局注意力）、TensorFlow与PyTorch对比（静态图vs动态图）、模型压缩方法（知识蒸馏、量化、剪枝）以及评估指标（PR AUC与ROC AUC区别）。同时提供了二叉树最大路径和、字典序第K小数字等算法题的Python解法。文中还涉及并行训练加速

2025-07-01 22:41:19 1060

原创 LL面试题11

本文总结了物流算法、云AI工程师和风控算法三个领域的面试题及答案。主要内容包括：机器学习模型：GLM、SVM、CNN的原理与应用，重点解释了卷积操作和决策树的概念，以及随机森林的随机性特点。算法优化：详细对比了XGBoost与GBDT的区别，介绍了排序算法及其适用场景，如插入排序对部分有序数组的高效性。图算法应用：分析了BFS在权值相等图的最短路径搜索中的优势，以及DFS的局限性，列举了BFS在网络爬虫等场景的实际应用。二叉树遍历：说明前序+中序遍历可以唯一确定二叉树，而前序+后序不能的原因。风控

2025-07-01 22:13:18 748

原创 Fine-Tuning a Large Language Model with Reinforcement Learning for Educational Question Generation

本文提出了一种基于强化学习的大型语言模型微调方法（RLLM-EduQG），用于教育问题生成任务。针对传统交叉熵训练存在的暴露偏差和指标不一致问题，该方法采用混合目标函数结合交叉熵和强化学习损失，优化Google FLAN-T5模型。实验表明，该方法在SciQ数据集上能生成语法和语义准确的教育问题，性能优于现有方法。创新点在于引入强化学习框架，同时考虑BLEU等离散指标和语义相似度，提升了生成问题的质量。

2025-06-30 13:25:38 853

原创 Leveraging Deep Reinforcement Learning for Metacognitive Interventions across Intelligent Tutoring

本研究比较了两种元认知干预方法——基于随机森林分类器的静态干预与基于深度强化学习（DRL）的适应性干预——在智能辅导系统（ITSs）中的应用效果。研究发现，DRL提供的适应性干预显著缩小了学生间的元认知技能差距，使学生在后续只支持反向链接（BC）策略的概率导师任务中表现更佳，成绩显著超越对照组。相比之下，静态干预仅对部分学生有效。研究证明了DRL在提供适应性元认知支持和促进学生未来学习准备方面的有效性。

2025-06-30 13:17:10 698

原创 Ruffle&Riley: Insights from Designing and Evaluating a Large Language Model-Based Conversational T

本文介绍并评估了基于大型语言模型(LLM)的对话辅导系统Ruffle&Riley，该系统通过自动生成辅导脚本和双代理（学生Ruffle和教授Riley）对话实现智能化教学。研究通过两项在线用户实验（N=200）比较了该系统与简单QA聊天机器人和阅读活动的效果。结果显示，Ruffle&Riley用户参与度和理解度较高，但短期学习效果与阅读活动无显著差异。该系统为未来智能教学系统的设计提供了新思路，并开源了代码以支持相关研究。

2025-06-28 09:21:43 805

原创 Pedagogical Agent Support and Its Relationship to Learners’ Self-regulated Learning Strategy Use wit

本研究探讨了智能教学系统(ITS)中教学代理对学习者自我调节学习(SRL)策略的支持效果。通过MetaTutor系统对105名本科生进行实验，比较了提示反馈组(P&F)与对照组的学习效果差异。结果显示，P&F组学生获得了更大的学习收获，并使用了更多认知和元认知SRL策略。分析表明，教学代理的外部支持能有效促进学习者采用新颖的SRL策略，减少策略重复使用。该研究验证了Kramarski和Heaysman的教师三重SRL-SRT模型在教学代理中的应用，证实虚拟教学代理可以像教师一样有效支持学生的

2025-06-28 09:05:26 945

原创 E4SRec: An Elegant Effective Efficient Extensible Solution of Large Language Models for Sequential

E4SRec提出了一种新颖高效的顺序推荐解决方案，将大型语言模型(LLM)与传统推荐系统相结合。该方法通过ID注入策略将项目ID信息整合到LLM中，解决了现有基于LLM的推荐方法无法处理ID信息的局限性。E4SRec采用预训练顺序推荐模型提取项目嵌入，通过指令调优使LLM适应推荐任务格式，并仅训练少量可插拔参数实现高效适配。实验表明，E4SRec能够生成可控范围内的推荐结果，并在效率和可扩展性上优于现有方法。该方案为构建工业级推荐系统提供了实用框架。

2025-06-27 12:17:30 1077

原创 Prompt Distillation for Efficient LLM-based Recommendation

本文提出了一种基于大语言模型(LLM)的高效推荐方法——Prompt Distillation (POD)，旨在解决传统离散提示在推荐系统中存在的两个问题：用户/项目ID与文本提示间的语义鸿沟，以及长文本处理导致的高延迟。该方法通过将离散提示提炼为连续的提示向量，有效桥接ID与文本的语义差异，减少推理时间。同时，作者提出任务交替训练策略，通过按任务分组训练样本，显著提升多任务训练效率。实验证明，POD在顺序推荐和Top-N推荐任务上优于现有方法。值得注意的是，该方法虽然显著提升了训练效率，但推理效率提升有限

2025-06-27 12:05:42 631

原创 LLaRA: Large Language-Recommendation Assistant

LLaRA：融合语言模型与传统推荐系统的新型框架本文提出大型语言推荐助手(LLaRA)，一种结合大型语言模型(LLM)与传统顺序推荐系统优势的创新框架。传统方法通常仅使用项目ID或文本元数据进行推荐，存在知识覆盖不全或行为模式理解不足的局限。LLaRA通过混合提示方法，将传统推荐模型学习的行为嵌入与文本特征相结合，并采用课程学习策略：先使用纯文本提示预热模型，再逐步引入混合提示以整合行为知识。实验证明LLaRA在多个数据集上优于现有基准模型，特别是在命中率@1指标上表现突出。该研究为增强LLM在推荐系统的

2025-06-26 23:36:33 758

原创 Recommendation as Language Processing (RLP): A Unified Pretrain, Personalized Prompt & Predict Parad

摘要本文提出了一种创新的统一推荐范式P5（预训练、个性化提示和预测范式），将各类推荐任务统一为文本到文本的生成框架。P5通过自然语言序列表示用户-项目交互、元数据等信息，利用语言建模目标进行多任务预训练，实现了不同推荐任务间的知识共享。该方法支持基于提示的零样本预测，减少了微调需求，并展现出对新颖提示和未知项目的泛化能力。实验验证了P5在五个推荐任务上的有效性，包括顺序推荐和评论生成等。P5标志着推荐系统向通用推荐引擎的演进，其代码和模型已开源。

2025-06-26 23:12:29 836

原创 LLM面试题十

Transformer是一种用于自然语言处理和机器翻译的神经网络模型。它引入了自注意力机制，能够捕捉输入序列中的长距离依赖关系。Transformer由编码器和解码器组成，每个模块都由多个层堆叠而成。编码器用于将输入序列映射到一系列连续表示，解码器则将这些表示转化为输出序列。条件随机场(CRF)是一种用于序列标注任务的统计模型。CRF可以建模输入序列和输出序列之间的依赖关系。

2025-04-08 16:02:12 751

原创 LLM面试题九

常见的中文分词方法包括基于规则、基于统计和基于深度学习的方法。其中，基于规则的方法根据预先定义的规则对文本进行切分；基于统计的方法通过统计某个词在语料库中出现的概率来进行分词；基于深度学习的方法则利用深度神经网络模型从大规模语料中学习分词模型。BERT(Bidirectional Encoder Representations from Transformers)是一种基于Transformer模型的预训练语言模型。其结构由多层Transformer编码器组成，其中每层包含多头自注意力机制和前馈神经网络。

2025-04-08 13:44:40 681

原创 LLM面试题八

二分类的分类损失函数一般采用交叉熵(Cross Entropy)损失函数，即CE损失函数。二分类问题的CE损失函数可以写成：其中，y是真实标签，p是预测标签，取值为0或1。多分类的分类损失函数采用Softmax交叉熵(Softmax Cross Entropy)损失函数。Softmax函数可以将输出值归一化为概率分布，用于多分类问题的输出层。Softmax交叉熵损失函数可以写成：，其中，n是类别数，yi是第i类的真实标签，pi是第i类的预测概率。

2025-04-07 23:32:22 1223

原创 LLM面试题七

在分类场景下，BERT比GPT更适合用于建模，因为BERT的结构中包含了双向的Transformer编码器，而GPT的结构中只包含单向的Transformer解码器。这使得BERT能够更好地捕捉文本中的双向上下文信息，从而在文本分类任务中表现更好。而GPT+prompt的方式则可以通过在输入文本前加入一些提示语来指导模型学习特定任务的表示，从而提高模型的泛化性能。通过在prompt中添加随机噪声或变换，来增加数据集的丰富性，从而提高模型的泛化性能。

2025-04-07 23:03:16 990

原创 LLM面试题六

抽取式摘要和生成式摘要存在哪些问题？抽取式摘要在语法、句法上有一定的保证，但是也面临了一定的问题，例如：内容选择错误、连贯性差、灵活性差等问题。生成式摘要优点是相比于抽取式而言用词更加灵活，因为所产生的词可能从未在原文中出现过。但存在以下问题：OOV问题。源文档语料中的词的数量级通常会很大，但是经常使用的词数量则相对比较固定。因此通常会根据词的频率过滤掉一些词做成词表。这样的做法会导致生成摘要时会遇到UNK的词。摘要的可读性。

2025-04-04 23:09:17 1104

原创 LLM面试题五

word2vec是一个把词语转化为对应向量的形式。word2vec中建模并不是最终的目的，其目的是获取建模的参数。HS用哈夫曼树，把预测one-hot编码改成预测一组01编码，进行层次分类。Word2vec是稠密的向量，而f-idf则是稀疏的向量；Word2vec的向量维度一般远比f-idf的向量维度小得多，故而在计算时更快；Word2vec的向量可以表达语义信息，但是tf-idf的向量不可以；Word2vec可以通过计算余弦相似度来得出两个向量的相似度，但是f-idf不可以。

2025-04-04 15:10:03 1028

原创 LLM面试题四

然而，现有的方法使用偏好模型定义偏好损失来训练奖励模型，然后训练优化所学奖励模型的策略，而DPO使用变量的变化来直接定义偏好损失作为策略的一个函数。因此，该工作假设，对齐可以是一个简单的过程，模型学习与用户互动的风格或格式，以揭示在预训练中已经获得的知识和能力。可以有意构造如下的训练样本，以提升模型准守honest原则，可以算trick了：微调时构造知识问答类训练集，给出不知道的不回答，加强honest原则：阅读理解题，读过的要回答，没读过的不回答，不要胡说八道。奖励函数的设置需要根据问题目标进行调整。

2025-04-03 12:22:02 767

原创 LLM面试题三

提示学习的核心思想是，通过改造下游任务、增加专家知识，使任务输入和输出适合原始语言模型，从而在零样本或少样本的场景中获得良好的任务效果。生成任务表达单一的，样本也不多的，可适当调低temperature,生成的样子跟训练集的比较像；它的核心思想是在预训练模型每层中插入用于下游任务的参数，在微调时将模型主体冻结，仅训练特定于任务的参数，从而减少训练时算力开销。把之前的LoRA跟base model合并后，继续训练就可以，为了保留之前的知识和能力，训练新的LoRA时，加入一些之前的训练数据是需要的。

2025-04-03 09:35:34 496

原创 LLM面试题二

我理解ChatGLM-6B模型是走完“预训练-SFT-RLHF"过程训练后的模型，其SFT阶段已经有上千指令微调任务训练过，现在我们只是新增了一类指令数据，相对大模型而已，微调数据量少和微调任务类型单一，不会对其原有的能力造成大的影响，所以我认为是不会导致灾难性遗忘问题，我自己微调模型也没出现此问题。在预训练阶段，模型并没有针对特定任务进行优化，因此预训练模型通常是通用的，可以应用于多个不同的任务和领域。在微调阶段，可以根据具体任务的需求，调整模型的参数和结构，以更好地适应目标任务的特点。

2025-04-02 20:19:31 502

原创 LLM面试题一

而Decoder-only架构的Attention矩阵是一个下三角阵，注意三角阵的行列式等于它对角线元素之积，由于softmax的存在，对角线必然都是正数，所以它的行列式必然是正数，即Decoder-only架构的Attention矩阵一定是满秩的！通常微调用bf16，推理用p16，当在模型大小为XB且参数精度为半精度，推理所需显存约为X的两倍，而全参数微调所需显存约为推理所需显存的四倍，包括模型推理（一倍）、梯度（一倍）、优化器（两倍），也就是X的八倍。简单介绍一下大模型？大模型的涌现能力是？

2025-04-02 18:01:21 506

原创 Unlocking Decoding-time Controllability: Gradient-Free Multi-Objective Alignment with Contrastive Pr

多目标对齐的任务旨在平衡和控制大型语言模型的不同对齐目标(例如，有益、无害和诚实)，以满足不同用户的个性化需求。然而，以前的方法倾向于训练多个模型来处理各种用户偏好，训练模型的数量随着对齐目标的数量和不同偏好的数量而线性增长。同时，现有的方法通常扩展性差，并且对于每个考虑的新的对准目标需要大量的重新训练。

2025-04-01 17:08:24 904

原创 Symbolic Prompt Program Search: A Structure-Aware Approach to Efficient Compile-Time Prompt Optimiza

在许多现代LLM应用程序中，比如检索增强生成，提示本身已经变成了程序。在这些设置中，使用不同的用户查询或数据实例重复调用提示程序。一个巨大的实际挑战是优化这样的提示程序。最近的工作主要集中在简单的提示程序上，或者假设提示程序的一般结构是固定的。我们介绍SAMMO，一个为提示程序的编译时优化执行符号提示程序搜索的框架。SAMMO在符号级别上表示提示程序，允许在优化过程中搜索一组丰富的转换。

2025-04-01 15:43:22 787

原创 Balancing Multiple Objectives for Efficient Metaprompts for Data Labeling Tasks with Extensive Guide

在不断增加的上下文窗口大小的刺激下，在用于数据注释和模式提取的大型语言模型(LLM)的应用中的两个最新趋势是(I)具有复杂结构、丰富信息和任务指令的更长提示，以及(ii)在同一提示中处理许多数据点(迷你批处理)以提高查询效率。在注释和分析数据的过程中，相同的元提示被许多不同的输入重复使用，因此值得优化长度，因为计费与整体令牌使用成比例。首先，由于忽略了提示的结构，它们在可以执行的转换操作方面受到限制；其次，它们没有考虑诸如输入和输出成本或遵守输出规范等重要因素。

2025-03-27 17:02:12 1516

原创 TAPO: Task-Referenced Adaptation for Prompt Optimization

提示工程可以显著提高大型语言模型(LLM)的性能，自动提示优化(APO)由于手动提示设计的费时费力而备受关注。然而，APO的许多现有工作忽略了特定任务的特征，导致提示缺乏领域特异性，不太适合特定任务的优化。在本文中，我们介绍了TAPO，一个多任务感知的提示优化框架，由三个关键模块组成。首先，提出了一个任务感知的度量选择模块来增强特定于任务的提示生成能力。其次，我们提出了一个多指标评估模块，从多个角度联合评估提示。第三，引入了一个基于进化的优化框架，用于自动提示细化，这提高了跨各种任务的适应性。

2025-03-27 16:46:25 856

原创 Pinecone数据库介绍、Milvus数据库介绍

对于初步接触LLM应用开发的开发者来说，选择一个高性能的向量搜索工具是关键的初步决策。Pinecone为此提供了一个完美的解决方案。Pinecone是一个云原生的向量数据库，专门为高性能向量搜索应用程序设计。借助其托管服务和简化的API接口，开发者可以集成其功能，而无须过多关注底层基础架构的细节。下面我们介绍Pinecone的主要特性，这些特性使其在LLM应用开发领域中脱颖而出。高速查询性能。Pinecone确保即使在数十亿条目中也能保持超低的查询延迟，满足实时应用的需求。实时索引更新。

2025-03-26 11:16:11 185

原创 Claude2模型介绍、Cohere模型介绍、PaLM2模型介绍

随着LLM应用的广泛应用，开发者对于高效、高性能的语言模型的需求日益增强。在这一背景下，Cohere应运而生，为开发者提供了一个先进的语言处理API。Cohere的核心能力Cohere不仅训练了大型的语言模型，并通过一个简洁的API为开发者提供服务，还允许用户根据自己的需求训练定制的大型模型。这意味着开发者无须为收集大量的文本数据，选择合适的神经网络架构、分布式训练或模型部署而感到困扰。Cohere为开发者处理了所有这些复杂问题。

2025-03-26 11:07:28 112

原创 OpenAI平台和模型介绍

对于初学者和专业的开发者来说，理解OpenAI平台的API强大功能，以及如何利用它构建LLM应用是至关重要的。当开发者决定在LLM应用中采用OpenAI技术时，了解OpenAI的模型更新策略和模型版本是至关重要的。对于希望利用现代技术为其LLM应用增添动力的开发者来说，了解OpenAI的主要应用场景是非常有益的。当开发者决定在LLM应用中集成OpenAI时，了解其提供的不同模型是至关重要的。在深入研究如何使用OpenAI为LLM应用带来价值之前，了解其核心概念是至关重要的。

2025-03-25 10:36:22 129

原创 LangChain框架中的主要类

它是由一个LLMChain驱动的，其中LLMChain的提示必须包括一个名为“agent_scratchpad’”的变量，代理可以放置其中间工作。在LangChain框架中，BaseTool类为所有LangChain工具提供了一个基本的接口。在LangChain框架中，BaseLLM类为大型语言模型（LLM)提供了一个核心的接口，其定义了与模型的基本交互方式。在LangChain框架中，BaseCallbackManager类为LangChain的回调提供了基础的管理接口。

2025-03-25 10:07:25 433

原创 Transtormer模型和语义搜索

幸运的是，Transformer模型的架构并不复杂，它只是一些有用组件的连接，每个组件都有其特定的功能。与传统的关键字搜索相比，语义搜索提供了更高的准确性和灵活性，使得开发者可以为用户提供更加丰富和准确的搜索体验。由于文本数据的非结构化特性，其格式和质量可能会有所不同，这可能会引入噪声，影响构建的LP模型的性能。幸运的是，这是正确的响应。这种逐词构建文本的方法可能与人类形成句子和思考的方式不同，但这正是Transformer模型如此出色的原因：它们能够非常好地跟踪上下文，从而选择恰当的下一个词汇。

2025-03-24 16:28:48 273

原创 LLM的核心知识

例如，在之前的电影示例中，“You’ve got mail’”与“Taken’”之间的角度为“90”，其余弦值为“0”，表示它们之间的相似度为“0”。简而言之，词嵌入是一种将词与数字列表（向量)相关联的方法，使得相似的词产生距离较近的数字，而不同的词产生距离较远的数字。对于相似的句子，它们的嵌入向量的点积会很大；最理想的位置是C点，因为“Apple’”这个词与“Cherry”、“Watermelon’”和“Grapes”这些词都很接近，而与“House’”、“Car”或“Tennis’”这样的词距离较远。

2025-03-24 12:13:53 62

原创 Agent toolkits集成指南

Agent toolkits的集成旨在简化并增强LLM应用中的数据处理和分析功能。CSVAgent提供了一个专门的工具，允许开发者处理CSV数据。Pandas Agent则集成了Pandas框架，赋予了开发者在应用中进行高效数据操作的能力。另外，为了满足先进的数据可视化需求，PowerBI Agent与Microsoft PowerBI紧密结合，为开发者带来了丰富的、直观的数据可视化工具。这些工具套件确保了LLM应用的数据处理、分析和可视化都既简单又高效。

2025-03-20 21:14:00 285

原创嵌入模型集成指南和Retrievers集成指南

Cohere Embeddings提供了与Cohere平台的无缝对接，确保文本嵌入过程既高效又精确。而HuggingFaceEmbeddings和LlamaCppEmbeddings则代表了另外两种文本嵌入集成方法。它们都经过严格的测试，以确保与Hugging Face Hub和Llama.cpp平台的稳定和高效交互，使得开发者可以更轻松地在其LLM应用中使用这些先进的嵌入技术。

2025-03-20 20:44:53 350

原创 Understanding the Importance of Evolutionary Search in Automated Heuristic Design with Large Languag

自动启发式设计(AHD)因其自动化有效启发式开发的潜力而获得了相当多的关注。大型语言模型(LLM)的最近出现为AHD铺平了一条新的道路，最初的努力集中在将AHD框架作为一个进化程序搜索(EPS)问题。然而，不一致的基准设置、不充分的基线和缺乏详细的成分分析使得将LLM与搜索策略相结合的必要性以及现有的基于LLM的EPS方法所取得的真正进展不充分。这项工作试图通过进行一个大规模的基准测试来完成这些研究问题，该基准测试包括四个基于LLM的EPS方法和四个AHD问题，涉及九个LLM和五次独立运行。

2025-03-19 22:17:45 865

原创 EVERYTHING OF THOUGHTS : DEFYING THE LAW OF PENROSE TRIANGLE FOR THOUGHT GENERATION

大型语言模型(LLM)的最新进展通过将复杂的问题分解为更易于管理的语言序列(称为“思想”)而彻底改变了决策。有效的思想设计应该考虑三个关键方面:性能、效率和灵活性。然而，现有的思想最多只能展示其中的两个属性。为了解决这些局限性，我们引入了一种新的思维激励方法，称为“思想的一切”(XOT)，以挑战现有思维范式的“彭罗斯三角”定律。XOT利用预训练强化学习和蒙特卡罗树搜索(MCTS)将外部领域知识和规划能力融入到思想中，从而增强LLM的能力，使他们能够有效地概括未知的问题。

2025-03-19 21:56:17 1198

原创 EvoFlow: Evolving Diverse Agentic Workflows On The Fly

在过去的两年里，基于大型语言模型(LLM)的多智能体系统经历了从劳动密集型手工设计到部分自动化(例如，即时工程、通信拓扑)以及最终到全自动化设计的演变。然而，现有的代理自动化管道通常缺乏LLM异构性，并专注于单目标性能优化，这限制了它们将较弱的模型组合成更加定制和经济高效的解决方案的潜力。为了应对这一挑战，我们提出了EvoFlow，这是一个基于小生境进化算法的框架，用于自动搜索异构和复杂性自适应的代理工作流群体，而不是单个同构的复杂工作流。

2025-03-18 10:29:49 1147

原创 AFLOW: AUTOMATING AGENTIC WORKFLOW GENERATION

大型语言模型(LLM)在解决跨不同领域的复杂任务方面表现出显著的潜力，通常通过采用遵循详细指令和操作序列的代理工作流来实现。然而，构建这些工作流需要大量的人力，限制了可扩展性和可推广性。最近的研究已经寻求自动化这些工作流的生成和优化，但是现有的方法仍然依赖于初始的手动设置，并且不能实现完全自动化和有效的工作流生成。为了应对这一挑战，我们将工作流优化重新表述为代码表示的工作流上的搜索问题，其中LLM调用节点由边连接。

2025-03-18 10:29:02 750

原创 MORL-Prompt: An Empirical Analysis of Multi-Objective Reinforcement Learning for Discrete Prompt Opt

可以采用基于RL的技术来搜索提示，当将其输入目标语言模型时，最大化一组用户指定的奖励函数。然而，在许多目标应用中，自然的回报函数是相互矛盾的——例如，在风格转换任务中，内容保留与风格匹配。目前的技术专注于最大化奖励函数的平均值，这不一定会导致实现奖励平衡的提示——这是一个在多目标和鲁棒优化文献中已经得到充分研究的问题。在本文中，我们进行了几个现有的多目标优化技术的经验比较，适应这一新的设置:基于RLS的离散提示优化。我们比较了两种优化帕累托回报面的方法，以及一种选择同时使所有回报受益的更新方向的方法。

2025-03-17 10:11:15 1090

原创 Survival of the Safest: Towards Secure Prompt Optimization through Interleaved Multi-Objective Evolu

大型语言模型(LLM)已经展示了非凡的能力；然而，优化他们的提示在历史上优先考虑性能指标，而牺牲了关键的安全性和安全性考虑。为了克服这个缺点，我们引入了“最安全的生存”(SoS)，这是一个创新的多目标即时优化框架，可以同时增强LLM的性能和安全性。SoS利用交叉多目标进化策略，集成语义、反馈和交叉变异，以有效地遍历离散提示空间。与计算要求高的Pareto front方法不同，SoS提供了一种可扩展的解决方案，可以在复杂的高维离散搜索空间中加速优化，同时保持较低的计算要求。

内容概要：本文探讨了表问答（Table QA）任务中的一种新方法——通过学习关系代数操作来增强模型的泛化能力和结构性推理能力。作者提出了一种基于部分执行SQL图的方法，将自然语言问题转化为计算图，并通过调整执行的部分来研究不同监督水平的效果。实验表明，在适当的中间截断级别上，这种方法比直接生成答案的方法表现更好，尤其在数值推理方面更为稳健。此外，该方法还解决了传统语义解析方法需要干净表格的问题，提高了对现实世界复杂表格数据的适应性。适用人群：从事自然语言处理、机器学习以及数据库管理的研究人员和技术人员。使用场景及目标：适用于需要从表格数据中提取信息的任务，如商业智能、数据分析等。主要目标是提高表问答系统的性能，特别是在处理复杂查询时的准确性和鲁棒性。其他说明：文中提到的方法不仅改进了现有模型的表现，也为未来的研究提供了新的思路，尤其是在如何利用外部工具进行结构化数据处理方面。

2025-03-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

基于知识图谱的大规模语言模型多文档问答方法研究与应用

基于深度学习对修订版布卢姆分类法的终结性评估分类研究

自然语言处理中多文档问答系统的动态对比解码方法优化

基于大型语言模型的多智能体课堂模拟系统SimClass的应用与效果评估

计算语言学中解决长文本问答'迷失中间'问题的位置无关分解训练方法

计算语言学会议论文：通过任务分解辅助人类解决编程竞赛问题的技术与应用

计算语言学会议论文：基于层次化标准分解对大型语言模型评估器进行人类偏好对齐的HD-EVAL框架

基于时间线的句子分解与上下文学习用于复杂时态事实抽取的技术研究

计算语言学中大型语言模型低秩分解优化及其对性能与偏见的影响研究

计算语言学中基于层次化问题分解树的可解释问答系统研究与应用

基于大型语言模型的多智能体协作框架MetaGPT的设计与应用：提升复杂软件开发效率

融合AI客服的在线视频教育平台设计与开发项目，旨在构建一个集成了人工智能客服系统的在线教育平台，提供高质量的教育资源和服务

生成式AI系统中的任务分解与检索增强生成（RAG）设计模式及其实战应用案例

基于不确定性的主动提示方法提升大型语言模型的推理能力研究

多跳问答基准MINTQA评测大型语言模型对新知识与长尾知识的理解能力

计算语言学大型模型多轮规划与实体猜谜游戏评估

长文本情景下加速与增强大型语言模型的大规模压缩技术-基于问答、编码和文本摘要的实验评估

代码风格归一化提升大型语言模型增强型代码搜索性能的研究与应用

大型语言模型多思维模式树方法提升复杂任务推理性能

利用知识图谱提升大型语言模型高中物理问答系统的子问题分解

### 教育技术基于数据驱动的数学试题难度预测模型构建与应用

### 文章总结 增强大型语言模型（LLMs）在知识图谱多跳推理问答（KGQA）

### 文章总结语义增强推理问答（Semantic-Enhanced Reasoning Question Answering, SERQA）

【自然语言处理】基于规则和案例推理的情感分析技术综述：知识获取与应用方法探讨

### 文章总结智慧教育领域中个性化习题推荐

教育技术基于大模型的个性化习题推荐系统设计与实现：结合LangChain框架和Text2vec方法提升在线学习体验

### 教育技术基于认知诊断和深度因子分解机的个性化习题推荐系统设计与验证

### 文章总结知识感知自适应图网络（KA-AGN）

这篇文章介绍了一种新的基于图神经网络（GNN）和相关性评分的技术，用于改进知识图谱问答系统（KGQA） 以下是文章的主要内容和结论：

【智能信息处理】基于ELECTRA的图网络模型在多跳问答中的应用：复杂推理问题的高效解决方法种新的多跳

### 教育技术基于知识图谱增强的在线评测系统习题推荐算法研究 摘要 本文

多分区检索增强生成（M-RAG）：基于多智能体强化学习优化大规模语言模型性能

多字段自适应检索（MFAR）：面向结构化数据的混合评分方法及其应用

离散数据隐藏结构对神经网络性能的影响及其扩展规律研究

基于关系组合器与逻辑约束的DAG查询嵌入方法DAGE及其对复杂查询任务的改进

探究学生在方法级代码重构中的思考过程：基于口语化研究的教育启示

家庭环境中机器人主动检测与解决异常情况的技术研究

大型语言模型驱动的智能体系统：动态任务分解、工具集成与评估的新进展

基于语义特征分解的大规模视觉生成模型图像通信系统TCSCI的研究与应用

表问答中查询关系分解的学习方法及其对语义解析与直接生成的桥梁作用

空空如也

### 文章总结增强大型语言模型（LLMs）在知识图谱多跳推理问答（KGQA）

这篇文章介绍了一种新的基于图神经网络（GNN）和相关性评分的技术，用于改进知识图谱问答系统（KGQA）以下是文章的主要内容和结论：

### 教育技术基于知识图谱增强的在线评测系统习题推荐算法研究摘要本文