
大语言模型与提示学习
文章平均质量分 90
自ChatGPT为代表的大语言模型(Large Language Model, LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后,业界涌现了非常多基于LLM的
镰刀韭菜
视野,意志,品格;目标,坚持,实践
展开
-
【Agent】AI Agents的安全性综述
大语言模型的出现推动了AI Agents的研究和发展。AI Agents可以充当智能助理,通过访问工具并在其环境中执行命令来代表用户完成任务。通过对典型AI Agents工作流程的研究和体验,我们提出了对其安全性的几个担忧。这些潜在漏洞不是由构建代理所使用的框架解决的,也不是由旨在改进代理的研究解决的。在本文中,我们从系统安全的角度详细地识别并描述了这些漏洞,并强调了它们的原因及其严重的影响。此外,我们介绍了针对每个漏洞的防御机制,并进行了精心设计和实验以评估其可行性。总之,本文将当前AI Agents发展原创 2025-01-20 20:45:03 · 866 阅读 · 0 评论 -
基于代理的RAG实现-Agentic RAG
Agentic RAG 体系结构中,不再被动地响应查询请求,而是**主动地分析初步检索到的信息**,并基于对任务复杂性的评估,战略性地选择最为合适的工具和方法进行进一步的数据检索和处理。这种**多步骤推理和决策的能力**使得 Agentic RAG 可以高效地处理复杂的研究任务,如总结和比较多个文档中的信息、制定后续的精心策划的问题等。原创 2025-01-16 23:52:05 · 1094 阅读 · 0 评论 -
【NLP】大语言模型基础之GPT
OpenAI公司在2018年提出的生成式预训练语言模型(Generative Pre-Training, GPT)是典型的生成式预训练语言模型之一。GPT的模型结构如下所示:它是由多层Transformer组成的单向语言模型,主要分为输入层、编码层和输出层三部分。原创 2024-04-24 22:59:07 · 1566 阅读 · 0 评论 -
【NLP】大语言模型基础之Transformer结构
在Transformer之前,循环神经网络(RNN)和长短时记忆网络(LSTM)等序列模型是处理自然语言数据的主流选择。然而,这些模型存在一些问题,例如难以并行化处理、难以捕捉长距离依赖关系等。Transformer的提出旨在解决这些问题,并通过引入自注意力机制(Self-Attention)实现更高效的序列建模。从2020年OpenAI发布GPT-3开始,对大语言模型的研究逐渐深入,虽然大语言模型的参数量巨大,通过有监督微调和强化学习能够完成非常多的人物,但是其理论基础仍然是Transformer结构。因原创 2024-04-14 20:28:39 · 1407 阅读 · 0 评论 -
【语言模型】快速了解大模型中的13个重要概念
近年来,随着深度学习的发展,一些预训练语言模型,如OpenAI的GPT(Generative Pre-trained Transformer)系列和Google的BERT(Bidirectional Encoder Representations from Transformers)等,采用了自回归的思想。DreamBooth是一种个性化训练一个文本到图像模型的方法,只需要提供一个主题的3~5张图像,就能教会模型有关这个主题的各种概念,从而在不同的场景和视图中生成这个主题的相关图像。这种模型的核心思想是,原创 2023-11-12 20:38:02 · 708 阅读 · 0 评论 -
【AIGC】百度:跨模态内容生成技术与应用
AIGC 时代已经到来了,百度研发了文生图的技术,发布了 AI 作画的创意产品文心一格。在文章转视频上,目前已经综合各种 AI 能力实现工业化的、可落地的文章自动转视频能力。原创 2023-02-20 23:45:00 · 1898 阅读 · 0 评论 -
【Prompting】ChatGPT Prompt Engineering开发指南(3)
to her."""注意:摘要包括与重点主题无关的主题。two days.解决办法,增加重试次数:安装tenacity这样的话,在访问之间会自动增加一定时间间隔,并在访问受拒之后,再次进行尝试。原创 2023-05-15 08:00:00 · 687 阅读 · 0 评论 -
【Prompting】ChatGPT Prompt Engineering开发指南(5)
在本教程中,我们将探讨如何使用大型语言模型来进行文本转换任务,例如语言翻译,拼写和语法检查,音调调整和格式转换。原创 2023-05-17 08:00:00 · 693 阅读 · 0 评论 -
【Prompting】ChatGPT Prompt Engineering开发指南(4)
在本教程中,学习从产品评论和新闻文章中推断出态度和主题。基本设定跟之前教程一致。原创 2023-05-16 08:00:00 · 469 阅读 · 0 评论 -
【Prompting】ChatGPT Prompt Engineering开发指南(6)
在本教程中,第一部分学习生成客户服务电子邮件,这些电子邮件是根据每个客户的评论量身定制的。第二部分将探索如何利用聊天格式与针对特定任务或行为进行个性化或专门化的聊天机器人进行扩展对话。原创 2023-05-18 08:00:00 · 890 阅读 · 1 评论 -
【ChatGPT】ChatGPT的自定义指令
自定义指令允许您共享您希望ChatGPT在其响应中考虑的任何内容。您的指令将添加到今后的新对话中。此功能允许根据您的偏好自定义ChatGPT的响应,并且可以随时修改或删除以供将来的对话使用。是的当您删除您的OpenAI帐户时,作为该过程的一部分,与您的帐户绑定的自定义指令也将在30天内删除。如果您没有选择不使用您的内容来改善我们的服务,那么我们可能会取消识别聊天记录,并将其与您的帐户解除关联。是的是的,您的指令更新仅反映在未来的对话中。原创 2023-11-07 11:21:41 · 870 阅读 · 0 评论 -
【LLM】LLaMA简介:一个650亿参数的基础大型语言模型
作为 Meta 对开放科学承诺的一部分,今天我们将公开发布LLaMA(大型语言模型 Meta AI) ,这是一个最先进的大型语言基础模型,旨在帮助研究人员推进他们在人工智能这一子领域的工作。更小,更高性能的模型,例如 LLaMA,使得研究社区中没有大量基础设施的其他人能够研究这些模型,进一步民主化这个重要的,快速变化的领域的访问。在大型语言模型空间中,训练像LLaMA这样的较小基础模型是可取的,因为它需要更少的计算能力和资源来测试新方法、验证他人的工作和探索新的用例。原创 2023-04-26 08:00:00 · 6417 阅读 · 0 评论 -
【Prompting】ChatGPT Prompt Engineering开发指南(2)
在本教程中,学习迭代分析并完善给出的提示,以从结果概况表中生成营销副本。基本条件设定与中相同。原创 2023-05-14 08:00:00 · 669 阅读 · 0 评论 -
【Prompting】ChatGPT Prompt Engineering开发指南(1)
在本课程中,您将练习两个提示原则及其相关策略,以便为大型语言模型编写有效的提示。原创 2023-05-13 21:56:20 · 1260 阅读 · 0 评论 -
【数据分析】ChatGPT可以自动完成哪些数据科学领域的任务?
或许,你已经听说过ChatGPT,或者已经使用过ChatGPT了。这是一款由OpenAI开发的新型人工智能聊天机器人,OpenAI是GPT-3、DALL.E2及其他产品的幕后开发公司。它仿佛是Google、StackOverflow和Readthedocs三者的组合体。自出世以来,它和以前的聊天机器人完全不同。更令人难以置信的是:它能针对各种问题生成详细而全面的答案。例如,它可以回答哲学、数学或计算机科学中的技术问题、可以和ChatGPT闲聊、写与机器学习相关的诗,甚至可以改变它的写作风格。原创 2023-03-18 08:00:00 · 3579 阅读 · 0 评论 -
【AI热点技术】ChatGPT开源替代品——LLaMA系列之「羊驼家族」
GPT-3.5(text-davinci-003)、ChatGPT、Claude和Bing Chat等指令遵循模型的功能越来越强大。现在,许多用户定期与这些模型交互,甚至在工作中使用它们。然而,尽管指令遵循模型得到了广泛部署,但仍有许多不足之处:它们会产生虚假信息,传播社会刻板印象,并产生有毒语言。为了在解决这些紧迫问题方面取得最大进展,学术界的参与至关重要。不幸的是,在学术界对指令遵循模型进行研究一直很困难,因为没有一个易于访问的模型在功能上接近OpenAI的text-davinci-003等闭源模型。原创 2023-04-18 23:00:00 · 4838 阅读 · 0 评论 -
【LLMs】从大语言模型到表征再到知识图谱
2023年8月14日,张永峰等人的论文《Natural Language is All a Graph Needs》登上arXiv街头,轰动一时!本论文概述了一个名为InstructGLM的模型,该模型进一步证明了图表示学习的未来包括大型语言模型(LLM)和图神经网络(GNN)。它描述了一种单独使用指令调整来teach语言模型文本属性图(text-attributed graph, TAG)的结构和语义的方法。经过指令微调的Flan-T5和Llama-7b能够在多个基准上实现引用图的节点分类和链接预测任务的原创 2023-11-09 23:44:34 · 1171 阅读 · 0 评论 -
【LLM】大语言模型学习之LLAMA 2:Open Foundation and Fine-Tuned Chat Model
在这项工作中,我们开发并发布了LLAMA 2,这是一系列预训练和微调的大型语言模型(LLMs),规模从70亿到700亿个参数不等。我们的微调LLMs,称为Llama 2-Chat,**专为对话场景进行了优化**。我们的模型在大多数我们测试的基准中表现优于开源对话模型,并且根据我们的人工评估,其有益性和安全性使其成为闭源模型的合适替代品。我们详细描述了我们对Llama 2-Chat的微调和安全性改进方法,旨在让社区能够在我们的工作基础上发展并为负责任的LLM发展做出贡献。原创 2023-07-26 20:00:00 · 1757 阅读 · 1 评论