
论文合集--bloom
文章平均质量分 94
研读论文
三月七꧁ ꧂
尚未佩妥剑,转眼便江湖。愿历尽千帆,归来仍少年! 跨考计算机上岸,下一站:月薪3W!
展开
-
Generative Students: Using LLM-Simulated Student Profiles to Support Question Item Evaluation
评估自动生成的问题项目的质量是一个长期的挑战。在本文中,我们利用LLM来模拟学生档案并生成对多项选择题(mcq)的回答。生成性学生对MCQs的回答可以进一步支持问题项目评估。我们提出生成性学生,一个基于KLI框架设计的提示架构。生成性学生简档是学生已经掌握、混淆或没有知识证据的知识成分列表的函数。我们在启发式评价的主题领域中实例化了生成性学生的概念。我们用GPT-4创造了45个生殖学生他们回答20个mcq。我们发现,生成型学生产生了符合他们个人资料的逻辑和可信的反应。原创 2024-10-04 20:42:45 · 1238 阅读 · 0 评论 -
Similarity-Based Content Scoring - A more Classroom-Suitable Alternative to Instance-Based Scoring?
自动对学生答案进行评分是一项重要任务,通常使用基于实例的监督学习来解决。最近,基于相似性的评分已被提出作为一种可产生类似性能的替代方法。它具有假设的优势,例如对带注释的训练数据的需求较低和零样本性能更好,这两个特性在将内容评分应用于现实课堂环境中时都非常有益。在本文中,我们通过在许多学习曲线实验中比较多个数据集上不同的基于实例和基于相似性的方法,仔细研究了这些所谓的优势。我们发现对数据和跨提示性能的需求相似,因此无法证实前两个建议的优势。原创 2024-12-31 22:43:01 · 1076 阅读 · 0 评论 -
GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models
大型语言模型 (LLM) 的最新进展引发了人们对其形式推理能力的兴趣,尤其是在数学方面。GSM8K 基准被广泛用于评估模型在小学水平问题上的数学推理能力。虽然近年来 LLM 在 GSM8K 上的表现有了显着提高,但它们的数学推理能力是否真的提高了仍不清楚,这引发了人们对报告指标可靠性的质疑。为了解决这些问题,我们对几个最先进的开放和封闭模型进行了大规模研究。为了克服现有评估的局限性,我们引入了 GSM-Symbolic,这是一种改进的基准,由允许生成多种问题的符号模板创建。原创 2024-12-31 22:30:01 · 602 阅读 · 0 评论 -
Yes, this Way! Learning to Ground Referring Expressions into Actions with Intra-episodic Feedback fr
在持续的交互中接收语言信号的能力对于未来的机器学习模型与人类自然协作和交互至关重要。在本文中,我们介绍了一项初步研究,评估了协作环境中给出的情景内反馈。我们使用一个指称性语言游戏作为面向任务的协作联合活动的可控示例。老师说出由众所周知的符号算法(“增量算法”)生成的指称表达作为初始指令,然后监视追随者的行为以可能干预情景内反馈(无需明确请求)。我们将这个任务定义为具有稀疏奖励的强化学习问题,并为启发式老师学习追随者策略。原创 2024-12-30 17:59:20 · 1180 阅读 · 0 评论 -
Selecting Better Samples from Pre-trained LLMs: A Case Study on Question Generation
近年来,大型语言模型 (LLM) 在自然语言生成方面表现出了令人印象深刻的实力。提高生成多样性的常见做法是从模型中采样多个输出。但是,缺乏一种简单而可靠的方法来从这些随机样本中选择最佳输出。作为以问题生成为框架的案例研究,我们提出了两种基于提示的方法,用于从一组 LLM 生成的候选问题中选择高质量问题。我们的方法在以下约束下工作:1) 黑盒(不可修改)问题生成模型和 2) 缺乏对人工注释参考的访问 - 这两者都是 LLM 在现实世界中部署的现实限制。原创 2024-12-27 17:16:54 · 1004 阅读 · 0 评论 -
Dr.Academy: A Benchmark for Evaluating Questioning Capability in Education for Large Language Models
教师在传授知识和指导学习者方面发挥着重要作用,而大型语言模型 (LLM) 作为潜在教育者的作用正成为一个重要的研究领域。认识到 LLM 生成教育内容的能力可以促进自动化和个性化学习的发展。虽然 LLM 的理解和解决问题的能力已经过测试,但它们在教学方面的能力仍未得到充分开发。在教学中,提问是一项关键技能,它引导学生分析、评估和综合核心概念和原则。原创 2024-12-27 17:02:13 · 1363 阅读 · 0 评论 -
Simulating Classroom Education with LLM-Empowered Agents
大型语言模型 (LLM) 已用于各种智能教育任务以辅助教学。虽然初步探索集中在针对特定教育任务的独立 LLM 赋能代理上,但多代理协作框架内的 LLM 模拟具有真实用户参与的课堂的潜力仍未得到探索。在这项工作中,我们提出了 SimClass,一个涉及用户参与的多代理课堂模拟框架。我们识别代表性班级角色并引入一种用于自动课堂教学的新型班级控制机制,并在两个真实课程中进行用户实验。利用教育分析中的弗兰德斯互动分析系统和探究社区理论框架,我们证明 LLM 可以有效模拟传统的课堂互动模式,同时增强用户体验。原创 2024-11-28 10:12:30 · 1380 阅读 · 0 评论 -
CS1-LLM: Integrating LLMs into CS1 Instruction
最近,大型语言模型 (LLM)(如 ChatGPT 和 GitHub Copilot)的广泛使用可能会对入门编程课程 (CS1) 产生影响,无论是在应该教授的内容方面,还是在如何教授方面。事实上,最近的研究表明,LLM 能够解决我们之前在 CS1 中使用的大多数作业和考试。此外,专业软件工程师经常使用这些工具,这引发了一个问题:我们是否也应该培训学生使用这些工具。这份经验报告描述了一所大型研究型大学的 CS1 课程,该课程从课程开始就完全接受使用 LLM。原创 2024-11-08 16:48:59 · 973 阅读 · 0 评论 -
BloomLLM: Large Language Models Based Question Generation Combining Supervised Fine-Tuning and Bloom
自适应评估具有挑战性,而考虑各种能力水平及其关系则使其变得更加复杂。然而,人工智能 (AI) 的最新发展为解决这些相关问题提供了新方法。在本文中,我们介绍了 BloomLLM,这是大型语言模型 (LLM) 的一种新改编,专门设计用于根据布鲁姆修订分类法增强教育内容的生成。BloomLLM 通过提供有意义的、语义上相关的问题,在所有能力水平上都表现良好。它是通过解决基础 LLM 的挑战来实现的,例如缺乏层次的语义相互依赖性和幻觉增加,这通常会导致不切实际和不切实际的问题。原创 2024-11-08 16:27:13 · 766 阅读 · 0 评论 -
Hierarchical Decomposition of Prompt-Based Continual Learning: Rethinking Obscured Sub-optimality
基于提示的持续学习利用预先训练的知识进行下游持续学习,并且在有监督的预训练下几乎达到了性能巅峰。然而,我们的实证研究表明,当前策略在更现实的自监督预训练下未能充分发挥其潜力,而自监督预训练对于在实践中处理大量未标记数据至关重要。这主要是因为任务特定知识很难通过提示参数合并到指导表示中,也无法在测试时由非指导表示预测。为了克服这种次优性,我们在预训练的背景下对持续学习目标进行了理论分析,并将其分解为分层组件:任务内预测、任务身份推断和任务自适应预测。原创 2024-10-30 11:18:37 · 1000 阅读 · 0 评论 -
Analysis of LLMs for educational question classification and generation
像ChatGPT这样的大型语言模型(LLM)在生成教育内容(包括问题)方面显示出了前景。本研究评估了LLMs在分类和生成教育类问题方面的有效性。我们使用一个由4,959个用户生成的问题组成的数据集来评估ChatGPT的性能,这些问题分为10个类别,采用了各种提示技术,并用投票方法汇总结果以增强鲁棒性。此外,我们评估了ChatGPT在从五本在线教科书中的100个阅读部分中生成特定类型问题的准确性,这些阅读部分由人工评估人员进行人工审查。原创 2024-10-04 20:24:00 · 1004 阅读 · 0 评论 -
GraphEval: A Knowledge-Graph Based LLM Hallucination Evaluation Framework
评估大型语言模型(LLM)响应和检测不一致性(也称为幻觉)的方法对于LLM应用变得越来越重要。当前的度量标准在提供可解释的决策、系统地检查响应中的所有信息片段的能力方面存在不足,并且通常计算成本太高而无法在实践中使用。我们提出GraphEval:一个基于知识图(KG)结构表示信息的幻觉评估框架。我们的方法识别了KG中易于产生幻觉的特定三联体,因此比以前的方法提供了对反应中幻觉发生位置的更多了解。原创 2024-10-02 19:15:37 · 1473 阅读 · 0 评论 -
Humans or LLMs as the Judge? A Study on Judgement Bias
采用人类和大型语言模型(LLM)作为评估LLM性能的评判者(也称为人类和LLM-as-a-judge)最近受到了关注。然而,这种方法同时引入了来自人和LLM的潜在偏差,质疑了评估结果的可靠性。在本文中,我们提出了一个新的框架,该框架不引用基础事实注释,用于调查LLM和人类法官的错误信息监督偏见、性别偏见、权威偏见和美貌偏见。我们参考修正后的布鲁姆分类法建立了一个数据集,并进行了数千次评估。结果表明,人类和LLM法官容易受到不同程度的干扰,即使是最先进的法官也有相当大的偏见。原创 2024-09-28 20:40:24 · 1041 阅读 · 0 评论 -
The Challenges of Evaluating LLM Applications: An Analysis of Automated, Human, and LLM-Based Approa
聊天机器人从一开始就是自然语言生成的一个有趣的应用。随着新的基于变压器的生成人工智能方法,建立聊天机器人已经变得微不足道。针对特定领域(如医学和心理学)的聊天机器人实现得很快。然而,这不应该分散对评估聊天机器人反应的需要。尤其是因为自然语言生成社区并不完全同意如何有效地评估这样的应用程序。通过这项工作,我们进一步讨论了日益流行的基于LLM的评估的问题,以及它们如何与人类评估相关联。此外,我们引入了一个全面的分解评估机制,可以与人工评估和基于LLM的评估结合使用。原创 2024-09-28 13:49:14 · 1024 阅读 · 0 评论 -
Enhancing Trust in LLMs: Algorithms for Comparing and Interpreting LLMs
本文提出了一个评估技术的调查,旨在提高大型语言模型(LLM)的可信度和理解。随着各行各业越来越依赖LLM,确保其可靠性、公平性和透明度变得至关重要。我们探索了一系列算法方法和指标,旨在评估LLM的性能,识别弱点,并引导其朝着更值得信赖和有效的应用发展。讨论的关键评估指标包括困惑测量、自然语言处理(NLP)评估指标(BLEU、ROUGE、METEOR、BERTScore、GLEU、单词错误率和字符错误率)、零镜头学习性能、少镜头学习性能、迁移学习评估、对抗性测试以及公平性和偏倚评估。原创 2024-09-27 22:34:21 · 1580 阅读 · 0 评论 -
Re-TASK: Revisiting LLM Tasks from Capability, Skill, and Knowledge Perspectives
随着大型语言模型(LLM)规模的不断扩大,其增强的性能通常不足以解决特定领域的任务。系统地分析它们的故障并有效地提高它们的性能仍然是重大的挑战。本文介绍了Re-TASK framework,这是一个新的理论模型,它以Bloom的分类法和知识空间理论为指导,从能力、技能和知识的角度重新审视LLM任务。Re-TASK框架提供了一个系统的方法来加深我们对特定领域任务的LLM的理解、评估和增强。它探索了LLM的能力、处理的知识和应用的技能之间的相互作用,阐明了这些要素是如何相互联系并影响任务绩效的。原创 2024-09-27 22:05:02 · 873 阅读 · 0 评论 -
FOKE: A PERSONALIZED AND EXPLAINABLE EDUCATION FRAMEWORK INTEGRATING FOUNDATION MODELS, KNOWLEDGE GR
集成大型语言模型 (LLM) 和知识图谱 (KG) 有望彻底改变智能教育,但在实现个性化、交互性和可解释性方面仍然存在挑战。我们提出了 FOKE,这是一个知识和教育森林框架,它协同基础模型、知识图谱和提示工程来应对这些挑战。FOKE 引入了三项关键创新:(1) 用于结构化领域知识表示的分层知识森林;(2) 用于全面学习者建模的多维用户分析机制;(3) 用于生成精确和定制学习指导的交互式提示工程方案。我们展示了 FOKE 在编程教育、家庭作业评估和学习路径规划中的应用,证明了它的有效性和实用性。原创 2024-09-23 21:51:20 · 1269 阅读 · 0 评论 -
Automatic Educational Question Generation with Difficulty Level Controls
我们考虑自动生成各种难度的数学应用题 (MWP),以满足教师在相应教育阶段教学和测试学生的需求。现有方法无法生成高质量的问题,同时允许教师控制问题难度级别。在这项工作中,我们引入了一个可控的 MWP 生成管道,该管道从具有各种专家模型组件的能量语言模型中采样以实现目标属性。我们通过对方程式、词汇和主题施加约束,从数学和语言方面控制生成的 MWP 的难度。我们还使用其他控制属性,包括流畅度和与条件序列的距离,来管理语言质量和创造力。原创 2024-08-26 17:36:40 · 1009 阅读 · 0 评论 -
Can GPT4 Answer Educational Tests? Empirical Analysis of Answer Quality Based on Question Complexity
虽然大型语言模型 (LLM) 的最新进展表明它们有潜力应对这些挑战,但关于 LLM 如何很好地回答不同难度和复杂度的开放式问题的研究有限。本文通过比较 GPT4 与人类的表现来解决这一差距,考虑问题的难度(通过项目反应理论 - IRT 评估)和复杂性(基于布鲁姆分类法级别分类),使用与高中主题相关的 7,380 个开放式问题的数据集。总体而言,结果表明 GPT4 超越了非母语人士,并表现出与母语人士相当的表现。原创 2024-08-26 17:26:34 · 905 阅读 · 0 评论 -
Towards Enriched Controllability for Educational Question Generation
问题生成 (QG) 是自然语言处理 (NLP) 中的一项任务,涉及根据输入自动生成问题,输入通常由文本和目标答案组成。QG 的最新研究旨在控制生成问题的类型,以满足教育需求。教育 QG 中可控性的一个显著例子是生成基于某些叙事元素的问题,例如因果关系、结果解决或预测。本研究旨在通过引入一种新的指导属性来丰富 QG 中的可控性:问题明确性。我们建议控制儿童友好故事中显性和隐性 (wh) 问题的生成。我们展示了通过问题明确性单独控制 QG 的初步证据,并同时使用另一个目标属性:问题的叙事元素。原创 2024-08-24 17:33:43 · 999 阅读 · 0 评论 -
Automated Educational Question Generation at Different Bloom’s Skill Levels using Large Language Mod
开发符合教学法、相关且促进学习的问题对于教育工作者来说是一项具有挑战性且耗时的任务。现代大型语言模型 (LLM) 可在多个领域生成高质量内容,从而可能帮助教育工作者开发高质量的问题。自动教育问题生成 (AEQG) 对于扩大在线教育以满足多样化学生群体的需求非常重要。AEQG 过去的尝试表明,其在生成更高认知水平的问题方面能力有限。在本研究中,我们研究了五种不同规模的最先进的 LLM 生成不同认知水平的多样化高质量问题的能力,这些问题由布鲁姆分类法定义。我们对 AEQG 使用了复杂程度不同的高级提示技术。原创 2024-08-24 17:28:08 · 1097 阅读 · 0 评论 -
Can Autograding of Student-Generated Questions Quality by ChatGPT Match Human Experts?
学生生成问题 (SGQ) 策略是一种有效的教学策略,可培养学生的高阶认知和批判性思维。然而,评估 SGQ 的质量非常耗时,并且需要领域专家的大量帮助。以前的自动评估工作侧重于问题的表面特征。为了克服这一限制,使用最先进的语言模型 GPT-3.5 和 GPT-4.0 对 1084 个 SGQ 的主题相关性、表达清晰度、可回答性、挑战性和认知水平进行了评估。结果表明,与 GPT-3.5 相比,GPT-4.0 在主题相关性、表达清晰度、可回答性和难度级别方面表现出与专家更好的评分一致性。原创 2024-08-22 21:57:36 · 868 阅读 · 0 评论 -
Towards Mitigating ChatGPT’s Negative Impact on Education: Optimizing Question Design through Bloom’
生成文本 AI 工具在回答问题方面的流行引发了人们对其可能对学生学业成绩产生负面影响以及教育工作者在评估学生学习方面面临的挑战的担忧。为了解决这些问题,本文介绍了一种进化方法,旨在确定最佳的布鲁姆分类关键词集,以生成这些工具对回答信心较低的问题。通过一个案例研究评估了这种方法的有效性,该案例研究使用了澳大利亚堪培拉新南威尔士大学教授的数据结构和表示课程中的问题。结果表明,优化算法能够从不同的认知水平找到关键词来创建 ChatGPT 对回答信心较低的问题。原创 2024-08-22 21:41:27 · 1076 阅读 · 0 评论 -
Harnessing LLMs in Curricular Design: Using GPT-4 to Support Authoring of Learning Objectives
我们评估了生成式预训练转换器 (GPT-4) 在以实践为导向的大学人工智能课程背景下自动生成高质量学习目标 (LO) 的能力。关于这项新兴教育技术的机会(例如内容生成、解释)和风险(例如作弊)的讨论愈演愈烈,但迄今为止,尚未有研究模型在支持课程设计和编写 LO 方面的能力。LO 阐明了学习者通过参与课程想要获得的知识和技能。为了有效,LO 必须关注学生想要实现的目标、关注特定的认知过程,并且是可衡量的。因此,编写高质量的 LO 是一项具有挑战性且耗时(即昂贵)的工作。原创 2024-08-21 20:24:46 · 668 阅读 · 0 评论 -
A Comparative Study of AI-Generated (GPT-4) and Human-crafted MCQs in Programming Education
教育工作者需要不断开发和维护有效的最新评估。虽然在计算机教育领域,越来越多的研究利用大型语言模型 (LLM) 来生成和参与编码练习,但使用 LLM 生成编程 MCQ 的方法尚未得到广泛探索。我们分析了 GPT-4 生成与高等教育 Python 编程课程中的特定学习目标 (LO) 相一致的多项选择题 (MCQ) 的能力。具体来说,我们开发了一个由 LLM 驱动的 (GPT-4) 系统,用于从高级课程环境和模块级 LO 生成 MCQ。原创 2024-08-21 20:08:22 · 971 阅读 · 0 评论 -
How Effective is GPT-4 Turbo in Generating School-Level Questions from Textbooks Based on Bloom’s Re
我们评估了 GPT-4 Turbo 在零样本模式下从 NCERT 教科书中生成教育问题的有效性。我们的研究强调了 GPT-4 Turbo 生成需要高阶思维技能的问题的能力,尤其是在根据布鲁姆修订分类法的“理解”层面。虽然我们发现 GPT-4 Turbo 生成的问题与人类评估的问题在复杂性方面存在显著的一致性,但偶尔也存在差异。我们的评估还揭示了人类和机器评估问题质量的方式存在差异,其趋势与布鲁姆修订分类法水平成反比。原创 2024-08-19 20:21:11 · 942 阅读 · 0 评论 -
Towards AI-Assisted Multiple Choice Question Generation and Quality Evaluation at Scale: Aligning wi
在教育评估中,多项选择题 (MCQ) 因其评分和提供反馈的效率而被频繁使用。然而,手动生成 MCQ 遇到了挑战。依赖有限的问题集可能会导致项目重复,这可能会损害评估的可靠性和评估程序的安全性,尤其是在高风险评估中。本研究探索了一种由人工智能驱动的方法来创建和评估入门化学和生物学中的 MCQ。原创 2024-08-19 20:08:39 · 1011 阅读 · 0 评论 -
Why Does ChatGPT Fall Short in Providing Truthful Answers?
ChatGPT 等大型语言模型的最新进展已显示出影响人类生活各个方面的巨大潜力。然而,ChatGPT 在为用户问题提供可靠和准确的答案方面仍然面临挑战。为了更好地了解该模型在提供真实答案方面的具体弱点,我们开始深入探索开放域问答。具体来说,我们详细检查了 ChatGPT 的失败之处,将其分为:理解力、事实性、特异性和推理。我们进一步指出事实性是导致失败的主要原因,并确定了与事实性相关的两种关键能力:知识记忆和知识回忆。通过专注于事实性的实验,我们提出了几种潜在的增强策略。原创 2024-08-16 18:19:11 · 1236 阅读 · 0 评论 -
ChatGPT Is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Larg
ChatGPT、GPT-4 等大型语言模型 (LLM) 在 NLP 领域取得了重大进展。然而,它们对常识性知识的记忆、表示和利用能力一直是 LLM 的痛点。GPT 能否有效回答常识性问题?GPT 是否具备常识性知识?GPT 是否知道回答特定问题所需的底层常识性知识?GPT 能否有效利用常识来回答问题?GPT 在常识性任务中可以获得良好的 QA 准确率,但对于某些类型的知识仍存在困难。ChatGPT 具备知识性,可以使用知识提示准确地生成大部分常识性知识。原创 2024-08-16 18:08:49 · 915 阅读 · 0 评论 -
KOLA: CAREFULLY BENCHMARKING WORLD KNOWLEDGE OF LARGE LANGUAGE MODELS
大型语言模型 (LLM) 的卓越性能要求评估方法不断改进。我们认为,细致周到的设计并非仅仅探索 LLM 能力的广度,对于全面、公正和适用的评估也至关重要。鉴于世界知识对 LLM 的重要性,我们构建了以知识为导向的 LLM 评估基准 (KoLA),其中我们精心设计了三个关键因素:(1)对于能力建模,我们模仿人类认知,形成与知识相关的能力的四级分类法,涵盖 19 项任务。原创 2024-08-14 16:58:23 · 1061 阅读 · 0 评论 -
Assessing ChatGPT’s Mastery of Bloom’s Taxonomy Using Psychosomatic Medicine Exam Questions: Mixed-M
GPT-4(生成式预训练 Transformer 4)等大型语言模型在医学和医学教育中的应用越来越广泛。然而,这些模型容易产生“幻觉”(即输出看似令人信服但实际上并不正确)。目前尚不清楚大型语言模型的这些错误与布鲁姆分类法中定义的不同认知水平有何关系。目的:本研究旨在使用心身医学考试问题探索 GPT-4 在布鲁姆分类法方面的表现。方法:我们使用了一个大型心身医学多项选择题数据集(N=307),其真实结果来自医学院考试。GPT-4 使用两个不同的提示版本回答多项选择题:详细和简短。原创 2024-08-14 15:43:25 · 801 阅读 · 0 评论 -
M3KE: A Massive Multi-Level Multi-Subject Knowledge Evaluation Benchmark for Chinese Large Language
大型语言模型最近在跨任务泛化、指令跟随等多个方面取得了巨大进步。全面评估大型语言模型在多个任务中的能力非常重要。在本文中,我们提出了 M3KE,一种大规模多层次多学科知识评估基准,旨在通过测试中文大型语言模型在零样本和少样本环境下的多任务准确性来衡量它们获得的知识。我们从 71 个任务中收集了 20,477 个问题。我们的选择涵盖了中国教育体系的所有主要层次,从小学到大学,以及各种学科,包括人文、历史、政治、法律、教育、心理学、科学、技术、艺术和宗教。原创 2024-08-13 22:48:56 · 1077 阅读 · 0 评论 -
AUTOMATIC CLASSIFICATION OF QUESTIONS INTO BLOOM‘S COGNITIVE LEVELS USING SUPPORT VECTOR MACHINES
近年来,电子学习日益成为教育机构中一项有前途的技术。在电子学习系统的众多组件中,问题库是最重要的组件。问题库是一个问题库,可帮助学生和教师完成教育过程。在问题库中,问题根据预定义的标准(如布卢姆认知水平)进行注释、存储和检索。毫无疑问,对于问题库管理,根据布卢姆认知水平自动对问题进行分类尤其有益。本文探讨了支持向量机 (SVM) 在解决将问题分类到布卢姆认知水平的问题方面的有效性。为此,我们收集了一个预分类问题的数据集。每个问题都经过删除标点符号和停用词、标记、词干提取、术语加权和长度规范化等处理。原创 2024-08-13 22:30:44 · 645 阅读 · 0 评论 -
Evaluating the Recommendations of LLMs to Teach a Visualization Technique using Bloom’s Taxonomy
近年来,大型语言模型 (LLM) 对教育和素养产生了巨大影响。我们使用布鲁姆分类法评估了两门流行的 LLM(OpenAI 的 ChatGPT 和 Google 的 Bard)提供的建议,以向新手传授平行坐标图 (PCP) 主题的知识。我们展示了由可视化素养领域的专家对这两门 LLM 提供的建议进行人工专家评估的结果。根据对专家评估的分析,我们发现虽然这两门 LLM 都提供了一些相关且实用的建议,但其中一些建议要么对新手来说太难,要么属于错误的认知过程(根据布鲁姆分类法)。原创 2024-08-12 14:12:51 · 1112 阅读 · 0 评论 -
Exploring the Capabilities of Prompted Large Language Models in Educational and Assessment Applicati
在生成式人工智能 (AI) 时代,大型语言模型 (LLM) 的融合为现代教育领域的创新提供了前所未有的机会。我们开始在教育和评估应用的背景下探索提示式 LLM,以发掘其潜力。通过一系列精心设计的研究问题,我们调查了基于提示的技术在从学校级教科书中生成开放式问题的有效性,评估了它们在从本科级技术教科书中生成开放式问题的效率,并探索了采用思路链启发的多阶段提示方法生成与语言无关的多项选择题 (MCQ) 的可行性。原创 2024-08-12 12:47:10 · 1125 阅读 · 0 评论 -
Automated Evaluation of Retrieval-Augmented Language Models with Task-Specific Exam Generation
我们提出了一种新方法来测量检索增强大型语言模型 (RAG) 的任务特定准确性。评估是通过对自动生成的综合考试对 RAG 进行评分来执行的,该考试由基于与任务相关的文档语料库的多项选择题组成。我们的方法是一种自动化、经济高效、可解释且强大的策略,用于为 RAG 系统选择最佳组件。我们利用项目反应理论 (IRT) 来评估考试的质量及其对任务特定准确性的信息性。IRT 还提供了一种自然的方法来迭代改进考试,方法是消除那些对模型能力没有足够信息的考试问题。原创 2024-08-11 09:00:00 · 916 阅读 · 0 评论 -
Generating Better Items for Cognitive Assessments Using Large Language Models
编写高质量的测试问题(项目)对于构建教育措施至关重要,但传统上也是一个耗时的过程。缓解这一问题的一个有希望的途径是自动生成项目,即使用人工智能 (AI) 的方法在最少的人为干预下生成新项目。研究人员已经探索使用大型语言模型 (LLM) 来生成具有与人工编写项目相同的心理测量属性的新项目。但是,即使现有项目的有效性证据较差,LLM 能否生成具有改进的心理测量属性的项目?我们使用来自自然语言推理 (NLI) 数据集的项目对此进行了调查。原创 2024-08-11 09:00:00 · 1041 阅读 · 0 评论 -
Current Evaluation Methods are a Bottleneck in Automatic Question Generation
本研究全面回顾了基于计算语言学技术和大型语言模型的自动问题生成 (AQG) 系统质量评估的常用评估方法。在全面概述评估方法的现状的同时,我们讨论了每种方法的优点和局限性。此外,我们阐明了在教育环境中全面整合自动问题生成系统的下一步措施,以实现有效的个性化和适应性。关键词:自动问题生成、评估方法、机器翻译、众包、人工评估者、消融研究。原创 2024-08-10 08:00:00 · 1314 阅读 · 0 评论 -
StructEval: Deepen and Broaden Large Language Model Assessment via Structured Evaluation
评估是大型语言模型(LLM)发展的接力棒。当前的评估通常对每个原子测试目标采用单项评估范式,难以判断模型是否真正具备所需的能力,还是仅仅记住/猜测特定问题的答案。为此,本文提出了一种新颖的评估框架,称为StructEval。StructEval从原子测试目标出发,通过跨多个认知水平和关键概念进行结构化评估,深化和拓宽评估范围,从而为LLM提供全面、稳健和一致的评估。原创 2024-08-10 08:00:00 · 1735 阅读 · 0 评论 -
How Good are Modern LLMs in Generating Relevant and High-Quality Questions at Different Bloom’s Skil
创建具有教学效果的问题对教师来说是一项挑战,需要投入大量时间和精心规划,尤其是在资源受限的经济体中。例如,在印度,高中社会科学评估的特点是死记硬背,不考虑高阶技能水平。使用大型语言模型 (LLM) 的自动教育问题生成 (AEQG) 有可能帮助教师大规模开发评估。然而,评估这些问题的质量和相关性很重要。在本研究中,我们检查了不同 LLM(Falcon 40B、Llama2 70B、Palm 2、GPT 3.5 和 GPT 4)生成不同认知水平的相关高质量问题的能力,如布鲁姆分类法所定义。原创 2024-08-09 14:41:53 · 992 阅读 · 0 评论