Soyoger
申明:个人微信公众号:AI技术研习社,公众号ID:ai2club。本博客只是用来学习,并不从事任何商业活动,其内容是自己总结或者来自互联网搜索到的,并没有过多关注版权问题,如有侵权内容,请私信我进行删除,谢谢。本博客内容主要围绕计算机领域热点技术和工作内容,不涉及版权问题,任何人可以查看、转载。
展开
-
普通人秒变AI专家:李沐创业同款RAG微调实战,打造专属外卖评论大模型
文本分类是自然语言处理中的一项核心任务,广泛应用于情感分析、主题标签分类、问答系统和对话行为分类等领域。传统的机器学习方法,如逻辑回归、朴素贝叶斯和支持向量机,虽然在处理已知类别上表现良好,但依赖大量标记数据,且在面对新任务时表现有限。深度学习方法,如深度神经网络、递归神经网络和卷积神经网络,通过捕捉复杂的数据关系,已经在性能上超越了传统算法。然而,这些深度学习模型同样依赖大量标记数据,并且在不经过大量重新训练的情况下,难以快速适应新任务。这使得在实际应用中,模型的适应性和灵活性仍然是一个挑战。原创 2024-09-12 10:58:04 · 345 阅读 · 0 评论 -
RAG工程必备神器:LlamaIndex全方位入门与应用指南
LlamaIndex 是一个复杂的框架,旨在使用您的专有数据进行索引和查询LLMs。此框架支持广泛的数据源,包括结构化数据(如关系数据库)、非结构化数据(如 NoSQL 数据库)和半结构化数据(如 Salesforce CRM 数据)。LlamaIndex 的主要优势在于它能够将专有数据索引到最先进的LLMs可以理解的嵌入中,从而消除了从头开始重新训练模型的需要。LlamaIndex 的强大之处在于它能够获取您的数据,无论其结构如何,并将其转换为LLMs可以有效理解和利用的格式。原创 2024-09-09 17:08:15 · 250 阅读 · 0 评论 -
RAG 聊天机器人:用 Langchain 和 Streamlit开启与 PDF 的智能对话
这篇文章将带您逐步构建一个基于 Multi-RAG 和 Streamlit 的 Web 应用程序,该应用程序通过 AI 驱动的聊天机器人来读取、解析和处理 PDF 数据,提供前所未有的用户体验。通过执行这些步骤,您可以创建一个应用程序,该应用程序不仅可以处理和理解大型 PDF 文档,还可以以有意义的方式与用户交互。这是使用 Langchain 的文本拆分器完成的,它通过将大文本划分为更小、更易于管理的段来帮助管理大文本。:对于每个上传的 PDF,应用程序使用 PdfReader 遍历每个页面并提取文本。原创 2024-09-09 16:59:24 · 700 阅读 · 0 评论 -
提示工程颠覆:DSPy 引领全新范式革命
所谓提示词,说白了就是我们给大模型下发的指令,提示词写对了,大模型才能输出相应的结果,提示词写的越好,大模型输出的结果就越准确。提示词由下面的一个或多个要素组成:指令(Instruction):给模型下达指令,或者描述要执行的任务;上下文(Context):给模型提供额外的上下文信息,引导模型更好地响应;输入数据(Input Data):用户输入的内容或问题;输出指示(Output Indicator):指定输出的类型或格式核心概念。原创 2024-09-06 17:54:06 · 285 阅读 · 0 评论 -
深入RAG优化:BGE词嵌入全解析与Landmark Embedding新突破
在大模型时代,它更是用于解决幻觉问题、知识时效问题、超长文本问题等各种大模型本身制约或不足的必要技术。然而,当前中文世界的高质量语义向量模型仍比较稀缺,且很少开源。为加快解决大模型的制约问题,近日,智源发布最强开源可商用中英文语义向量模型BGE(BAAI General Embedding),在中英文语义检索精度与整体语义表征能力均超越了社区所有同类模型,如OpenAI 的text embedding 002等。此外,BGE 保持了同等参数量级模型中的最小向量维度,使用成本更低。原创 2024-09-05 16:08:23 · 705 阅读 · 0 评论 -
RAG挑战来袭:长上下文的LLMs会取代RAG系统吗?
例如,SRF-Embedding-Mistral 和 GritLM7B 是 Huggingface MTEB 排行榜上性能最好的两个嵌入模型,它们支持 32k 个令牌长的上下文,展示了嵌入能力的实质性改进。:真实世界的用例不仅涉及非结构化数据,如冗长的文本、图像和视频,还涉及各种结构化数据,这些数据可能无法被用于LLM训练目的的各种结构化数据,例如时间序列数据、图形数据和代码更改。这意味着,RAG 在未来仍将扮演重要角色,尽管它可能会演变成多种不同的形态,不再局限于目前大模型和向量检索分开的模式。原创 2024-09-05 15:53:53 · 361 阅读 · 0 评论 -
提升RAG系统效果:揭秘Rewrite技术及其关键优化策略,提高召回率与精确度
关于RAG的优化,前面我们讲过一篇是Rerank的优化,《揭开RAG重排序(Rerankers)和两阶段检索(Two-Stage Retrieval)的神秘面纱》,Rerank优化的目的是通过向量检索返回更多的top K结果,以提高召回率和精确度。上图,从左到右,我们展示了(a)标准的retrieve-then-read方法,(b)LLM 作为我们的 rewrite-retrieve-read管道的查询重写器,以及(c)带有可训练重写器的管道。例如,考虑使用个性化推送通知,提前告知粉丝直播的详细信息。原创 2024-09-03 11:33:31 · 612 阅读 · 0 评论 -
RAG最佳实践:用 ElasticSearch 打造AI搜索系统与RAG 应用全流程详解!
AI 对话式搜索是一种基于自然语言处理(NLP)和机器学习技术的搜索方式,旨在通过与用户的自然对话实现信息检索。这种搜索模式允许用户以自然语言提问,而不是输入特定的关键词。AI 对话式搜索系统可以理解用户的查询意图,并通过智能匹配算法提供相关的答案或信息。这种搜索体验更加贴近人类的交流方式,使搜索过程更加直观和用户友好,特别适用于需要复杂查询或个性化推荐的场景。接下来,我们将深入探讨如何构建这样的 AI 对话式搜索应用程序,从数据准备、模型选择到系统集成,逐步展示实现这一技术的不同步骤。原创 2024-08-30 16:01:38 · 768 阅读 · 0 评论 -
RAG必备知识:OpenAI官宣结构化输出|结构化输出工具大汇总
官宣:根据非常普遍的需求,OpenAI的API 中开始支持结构化输出。在 API 中引入结构化输出 - 模型输出现在遵循开发人员提供的 JSON 模式。让大型语言模型(Large Language Models, LLMs)进行结构化输出是自然语言处理(NLP)领域中的一个重要目标。结构化输出指的是将自然语言转换成具有明确格式和结构的数据,如表格、数据库条目、JSON对象等。快速进行尝试一个。这个真香,再也不用为没有固定返回格式发愁了。原创 2024-08-28 11:34:42 · 165 阅读 · 0 评论 -
RAG 向量数据库:掌握 Elasticsearch 作为向量数据库的终极指南
Elasticsearch Vector DB是一种先进的数据存储和检索技术,它结合了Elasticsearch的全文搜索功能和向量搜索的能力。其开放源代码和活跃的社区支持也为开发者提供了丰富的资源和工具,加速了技术的普及和创新。在不断发展的数据管理环境中,Elasticsearch 已成为一个突出的参与者,通过其向量数据库引入了突破性的功能,为数据搜索和检索领域带来的变革性影响。此外,向量数据库结合了传统全文搜索和现代向量搜索的优点,提供了更精准和快速的搜索体验,提升了用户的满意度和业务的竞争力。原创 2024-08-27 17:25:55 · 756 阅读 · 1 评论 -
重磅开源利器 Denser Retriever:轻松打造顶尖 RAG 应用的终极检索器
对 Denser Retriever 在 MTEB 数据集上的评估显示,通过使用 xgboost 模型(简称 ES+VS+RR_n),将关键词搜索、向量搜索和重排序器结合,能够显著提升向量搜索(VS)的基准性能。向量搜索:通过神经网络模型将查询和文档编码为高维空间中的密集向量表示,我们使用Milvus和Snowflake-arctic-embed-m模型,该模型在MTEB/BEIR排行榜的各个尺寸变体中均实现了最先进的性能。对于需要持续更新的知识库,如新闻数据或实时反馈的系统,检索器的选择更为关键。原创 2024-08-26 10:10:20 · 226 阅读 · 0 评论 -
RAG必懂知识:什么是向量数据库的距离?一文详解向量距离
向量距离,也称为距离度量或相似度度量,是一种数学函数,用于量化两个向量之间的相似性或差异性。这些向量可以代表各种数据集,向量距离有助于理解向量在特征空间中的接近程度或远离程度。因此,向量距离在各种机器学习算法中至关重要,使这些算法能够基于向量之间的关系做出决策。对于距离的度量,我们可以在几何距离测量和统计距离测量之间进行选择,应该选择哪种距离度量取决于数据的类型。特征可能有不同的数据类型(例如,真实值、布尔值、分类值),数据可能是多维的或由地理空间数据组成。原创 2024-08-23 16:31:17 · 182 阅读 · 0 评论 -
揭开RAG的秘密:向量数据库如何引领智能检索革命
首先,在实现原理方面,向量是模型对语义含义的编码形式,向量数据库可以更好地理解查询的语义内容,因为它们利用了深度学习模型的能力来编码文本的含义,而不仅仅是关键字匹配。举例来说,对于熟悉猫的人,他们能很快辨别不同种类的猫,因为他们会根据不同的角度来观察猫的特征,比如体型大小。通过计算两个向量之间的距离,我们可以找到相关的事物或信息。最后,在总拥有成本上,相比其他选项,向量数据库的部署更加方便、易于上手,同时也提供了丰富的API,使其易于与现有的机器学习框架和工作流程集成,因而深受许多RAG应用开发者的喜爱。原创 2024-08-23 16:15:29 · 159 阅读 · 0 评论 -
RAG优化攻略:最详细的RAG构建分块策略与实战代码案例
该方法的核心思想是,如果在初始分割时未能生成所需大小或结构的块,则会使用不同的分隔符或标准对生成的块递归调用,直到获得所需的块大小或结构。这种方法简单高效,能够确保每个分块都是完整的句子,从而为后续的文本处理和分析提供坚实的基础。合理的分块策略能够在保留上下文信息的同时,提供足够细粒度的内容描述,从而实现高效、精准的检索。例如,对于需要细粒度语义分析的应用,如细节丰富的问答系统或深入的文本理解,较小的块大小可能更为合适。在资源有限的情况下,较小的块可以减少内存和处理时间的消耗,但也可能增加处理的复杂性。原创 2024-08-22 13:53:55 · 424 阅读 · 0 评论 -
RAG优化秘籍:非结构化文档解析全攻略大汇总
RAG技术的适用性极为广泛,包括问答系统、文档生成、智能助手、信息检索和知识图谱填充等自然语言处理任务,显著提升了大型语言模型在处理知识密集型任务时的性能。通过这些方法,可以高效地将不同格式的文档内容解析为结构化数据,进而在RAG技术中发挥其作用,提升信息检索和文本生成的准确性和效率。如果需要OCR技术来解析图像或扫描的PDF文档,选择高效的OCR引擎,如Tesseract,并对其进行参数调优。通过上述方法和策略,可以有效地优化PDF的解析过程,并高效地处理解析后的数据,为各种应用场景提供支持。原创 2024-08-20 17:50:53 · 557 阅读 · 0 评论 -
RAG2.0重磅发布,究竟有哪些颠覆性更新?
上图展示了从 RICHES 到多跳问答的解决方案(Yang et al., 2018),其中必须从多个单独的文档中检索证据,通过迭代生成关于需要检索的内容的无约束“思想”,然后生成一个从证据语料库派生的支持命题,并与原始支持文本相关联。RICHES在开放领域问答(归因问答、多跳问答和检索思考)任务上展现出强大的性能,与传统的检索增强生成方法相比,在多跳问答任务(Hotpot)上表现尤为出色,能够通过单一的解码过程实现更准确的答案生成。通过消除对独立检索器和发生器的需求,提供了传统 RAG 系统的替代方案。原创 2024-08-19 13:54:06 · 165 阅读 · 0 评论 -
还在困惑RAG评估?一篇文章彻底解析RAG评估工作流程!
参考:https://smith.langchain.com/hub/langchain-ai/rag-answer-vs-reference。参考:https://smith.langchain.com/hub/langchain-ai/rag-answer-helpfulness。参考:https://smith.langchain.com/hub/langchain-ai/rag-document-relevance。评估生成步骤,以确保在检索到的文档中生成正确的答案。原创 2024-08-16 16:54:22 · 159 阅读 · 0 评论 -
全网最全RAG评估指南:全面解析RAG评估指标并提供代码示例
为了计算单个查询的平均准确率,需要在检索到的文档的排序列表中的每个位置计算精确度,只考虑前K个检索到的文档,其中每个精确度都根据文档是否相关进行加权。例如,在法律信息检索系统中,高召回率至关重要,因为未能检索到相关的法律文件可能导致不完整的案例研究,并可能影响法律诉讼的结果。例如,在基于RAG的搜索引擎中,MAP至关重要,因为它考虑了检索的精确度和不同排名的检索结果,确保相关文档在搜索结果中更高地显示,从而通过首先呈现最相关的信息来提高用户体验。它衡量生成的响应对用户的查询提供了多少有用的信息。原创 2024-08-14 15:34:00 · 579 阅读 · 0 评论 -
【RAG实战】基于TextIn打造上市公司财务报表智能问答系统
这不仅保证了数据的完整性和准确性,还能显著提高系统的整体性能和用户体验。精准解析确保了关键信息的正确提取和结构化,进而提升了检索的效率和生成的回答的质量。此过程包括提取和整理文本中的关键信息,如财务数据、表格和图表,从而确保数据的结构化格式能够支持高效的检索和生成操作。在RAG的预处理阶段,文档解析的准确性至关重要,因为任何解析上的误差都会直接影响后续的检索和生成结果,进而影响整个系统的性能。然而,对于更复杂的文档解析,尤其是涉及大量图表、复杂表格或非标准格式的财务报表时,单一的开源工具可能难以满足需求。原创 2024-08-13 12:26:41 · 222 阅读 · 0 评论 -
Rerank模型哪款最强?详解如何轻松集成到你的项目中!
新的reranker模型:发布跨编码器模型 BAAI/bge-reranker-base 和 BAAI/bge-reranker-large ,它们比嵌入模型更强大。所以,当在RAG 项目中,使用Embedding 求出topN的时候,N可以大一点儿,然后重新组织问题和检索出来的答案。比如,question是问题,top_n_answers是Embedding返回的结果,得到Rerank的新数据结构。几乎所有的Embeddings都在重排之后显示出更高的命中率和MRR,所以rerank的效果是非常显著的。原创 2024-08-13 11:23:48 · 1621 阅读 · 0 评论 -
揭开RAG重排序(Rerankers)和两阶段检索(Two-Stage Retrieval)的神秘面纱
此外,由于查询是在收到后才知道的,双编码器对查询的上下文一无所知(我们是在用户提出查询之前就已经创建了嵌入)。由于重排序器是在用户提出查询时才运行,这让我们能够针对具体查询分析文档的含义,而非仅生成一个泛化的、平均化的含义。然而,这在实际操作中是不可行的,因为大语言模型对可处理的文本量有限制,这个限制称为上下文窗口。第二,尽管大模型拥有高达100K Token的巨大上下文窗口,理论上可以包含大量文档,但我们仍然不能返回所有文档并填满上下文窗口来提高召回率。请注意,这里的文档A实际上等同于我们的查询。原创 2024-08-12 09:56:19 · 357 阅读 · 0 评论 -
教你实现ChatPDF:从零到一的完整指南!
因为大语言模型 Large Language Model 的缩写是 LLM,当年 Meta 公司觉得两个 L 在一起不太好念,所以就选了一个相近的词语 llama,它的意思是美洲驼。其核心目的是简化对复杂文档的理解和查询过程,使用户能够通过自然语言与文档内容进行互动,从而提高信息检索的效率和准确性。为什么有那么多以驼命名的大语言模型呢?文档上传和处理:用户首先上传PDF文档,系统将对文档进行解析和处理,包括文本抽取和结构识别。集成语言模型:使用先进的语言模型对提取的文本进行嵌入,建立文档内容的向量表示。原创 2024-08-12 09:44:50 · 222 阅读 · 0 评论 -
如何高效选择RAG的中文Embedding模型?揭秘最佳实践与关键标准!
这种技术广泛应用于自然语言处理(NLP)、推荐系统、图像处理等领域,用于将离散的、稀疏的输入数据(如词汇、用户ID、物品ID)转化为密集的、连续的向量表示。较高的维度可以捕捉更多的细节信息,但也会增加计算开销。性能优异的Embedding模型能够提供更准确的向量表示,从而提高信息检索的准确性和生成文本的质量。可扩展性:在处理大量数据或需要频繁更新模型的场景中,模型的可扩展性至关重要。社区和支持:选择有活跃社区和良好支持的Embedding模型,可以更方便地获取帮助和资源,解决使用过程中遇到的问题。原创 2024-08-09 09:47:01 · 281 阅读 · 0 评论 -
如何高效选择RAG的中文Embedding模型?揭秘最佳实践与关键标准!
这种技术广泛应用于自然语言处理(NLP)、推荐系统、图像处理等领域,用于将离散的、稀疏的输入数据(如词汇、用户ID、物品ID)转化为密集的、连续的向量表示。较高的维度可以捕捉更多的细节信息,但也会增加计算开销。性能优异的Embedding模型能够提供更准确的向量表示,从而提高信息检索的准确性和生成文本的质量。可扩展性:在处理大量数据或需要频繁更新模型的场景中,模型的可扩展性至关重要。社区和支持:选择有活跃社区和良好支持的Embedding模型,可以更方便地获取帮助和资源,解决使用过程中遇到的问题。原创 2024-08-08 17:35:53 · 995 阅读 · 0 评论 -
【查漏补缺】10个关于RAG的冷知识,你知道几个?
将这些组件组合在一个端到端训练的概率模型中(图 1)。生成策略调整:使用不同的生成策略,如搜索(beam search)、温度采样(temperature sampling)或顶级采样(top-k sampling),来平衡生成文本的质量和多样性。检索到的多个文档可能会包含相互矛盾的信息,生成模型需要有效地筛选和整合这些信息,避免生成混淆或矛盾的内容。尽管RAG技术面临这些挑战,它仍然代表了文本生成技术的一个重要进步,通过不断的研究和改进,这些挑战有望得到解决,从而进一步提升RAG系统的性能和实用性。原创 2024-08-08 17:30:09 · 217 阅读 · 0 评论 -
开篇词:大模型国内应用落地思考与实践
相信,使用过ChatGPT的人,在被ChatGPT表现出的惊人的能力所征服时,也对ChatGPT在某些场景下的落地感到痛苦。受限于地域、网络、数据安全和法律合规等限制,ChatGPT的使用,总有一种被别人卡脖子的感觉。所以,国内各行业、企业拥有自己的大模型和技术就显得非常有必要,也势在必行。原创 2023-07-16 11:24:58 · 833 阅读 · 0 评论 -
革命性突破:斯坦福TTT架构,Transformer时代终结?
TTT,全称Test-Time-Training layers,是一种全新的架构,通过梯度下降压缩上下文,直接替代了传统的注意力机制。传统的Transformer通过注意力机制捕捉输入序列中不同位置的相关性,而TTT通过在推理时进行训练,压缩上下文信息,提高模型的理解和生成能力。最近,一个名为TTT的全新架构横空出世,由斯坦福、UCSD、UC伯克利和Meta的研究人员共同提出,颠覆了Transformer和Mamba,为语言模型带来了革命性的改变。TTT层的问世,为AI领域带来了新的活力和可能性。原创 2024-08-06 09:22:45 · 258 阅读 · 0 评论 -
动手搭建自己的问答服务
一个简单、稳定可用的服务实践,快点动手实践,搭建自己的应用吧!原创 2023-08-05 23:06:46 · 343 阅读 · 0 评论 -
现在LLM 的大小为什都设计成6/7B、13B和130B几个档次?
其中,在拓展购物消费体验方面,《措施》鼓励在确保透明度和严格监管的前提下,采用AI大模型、VR全景技术和数字人等前沿科技,拓宽电商直播边界。目前,常见的更大模型包括16B、34B、52B、56B、65B、70B、100B、130B、170B和220B等。将大语言模型设计成6/7B、13B和130B等几个档次,是在性能、计算资源、应用场景、训练调优、市场需求和研究实验等多方面综合考虑的结果。能下载到的模型普遍都是6/7B(小)、13B(中)、大(130B) 三种,比如ChatGLM 和Llama2 等。原创 2024-07-29 10:06:19 · 869 阅读 · 0 评论 -
大模型应用中一个 Token 占多少汉字?答案超乎想象!
如腾讯1token≈1.8个汉字,通义千问、千帆大模型等1token=1个汉字,对于英文文本来说,1个token通常对应3至4个字母, 不同的模型对相同的输入分词, 分词结果是不一样的。对于普通用户很难理解Token这个概念, 这个概念是隐藏在模型内部的, 对于普通使用者来说,这种计价方式无疑是致命的, 所以对于大部分普通使用者,还是采用包月方式偏多, Token计价方式针对的是开发者,希望通过API方式进行调用,封装自己的应用。分词器根据预定义的词汇表和算法,将文本拆解成模型可以理解和处理的最小单元。原创 2024-08-06 09:40:49 · 602 阅读 · 0 评论 -
大模型量化技术大揭秘:INT4、INT8、FP32、FP16的差异与应用解析
在INT8量化中,模型的权重和激活值会经过一个量化过程,包括缩放和偏移,以尽可能保留原始浮点数的信息。大模型的量化是一种优化技术,其过程包括将深度学习模型中的权重和激活值从高精度浮点数(如32位)转换为低精度表示(如8位整数,INT8),这个过程被称为“量化”。具体而言,模型量化是一种压缩网络参数的方式,它将神经网络的参数(weight)、特征图(activation)等原本用浮点表示的量值,换成用定点(整型)表示,在计算过程中,再将定点数据反量化回浮点数据,得到结果,如图所示。原创 2024-08-07 10:05:20 · 2255 阅读 · 0 评论 -
Hugging Face 介绍
Hugging Face通过其Transformers库,为NLP领域提供了一个全面的工具集,包括Pipeline、AutoClass、数据集、模型工具和评估工具。这些工具不仅简化了NLP任务的实现,还促进了社区的协作和知识共享,推动了NLP技术的发展和应用。AutoClass是Hugging Face提供的一个强大的工具,它允许用户自动加载和使用预训练模型,而无需关心模型的具体实现细节。这些数据集可以用于模型训练、评估和微调。Hugging Face的模型工具包括模型训练、微调和评估所需的各种工具和库。原创 2024-07-27 11:54:44 · 303 阅读 · 0 评论 -
HuggingFace如何进行预训练和微调?
训练语言模型,尤其是用于完整的 LLM 微调,需要大量的计算资源。展望未来,LLM 的持续探索和创新,加上改进的微调方法,有望推动更智能、更高效和上下文感知的人工智能系统的发展。LoRA 是一种改进的微调方法,它不是微调构成预训练大型语言模型权重矩阵的所有权重,而是微调近似于这个较大矩阵的两个较小矩阵。在这种方法中,使用包含标记样本的数据集来调整模型的权重,从而提高其在特定任务中的熟练程度。特定任务的适配:在微调过程中,模型的参数会根据新数据集进行调整,帮助模型更好地理解和生成与特定任务相关的内容。原创 2024-07-27 14:56:12 · 419 阅读 · 0 评论 -
Prompt技巧篇:让chatgpt输出更好的答案
假设你想让 AI 总结一篇非常非常长的文章,并且按照特定格式给你总结,那你可以在文章前面明确输出的格式(为了不占用太多显示空间,我省略了正文内容,你可以在 OpenAI 的 Playground 看到完整案例)。据我的测试,主要还是 AI 不知道什么是指令,什么是待处理的内容,用符号分隔开来会更利于 AI 区分。在代码生成场景里,有一个小技巧,上面提到的案例,其 prompt 还可以继续优化,在 prompt 最后,增加一个代码的引导,告知 AI 我已经将条件描述完了,你可以写代码了。原创 2024-07-31 19:30:00 · 419 阅读 · 0 评论 -
Prompt的 “注入” 攻击
Prompt注入攻击类似于传统的SQL注入攻击,通过在输入中嵌入恶意代码或指令,攻击者可以影响大语言模型的输出行为。具体来说,攻击者向模型提供精心设计的输入,诱导模型生成错误、误导或有害的响应,从而实现攻击目的。在 Web 安全领域,JavaScript 注入攻击是一种常见的威胁,攻击者通过在网页中注入恶意的 JavaScript 代码,来窃取用户信息、篡改网页内容或者执行其他恶意操作。例如,在一个问答系统中,用户输入的问题可能包含恶意指令,引导模型生成不当的回答。这可以减少恶意指令被模型接受的可能性。原创 2024-07-30 19:30:00 · 843 阅读 · 0 评论 -
谈LLM的数据工程,搞大模型等于洗数据?
在过去的一年中,关于大模型的研究揭示了一个不好的现象:许多人认为,只要向大模型输入大量数据即可,而不顾数据的噪声和质量。高质量的数据是模型成功的基础,而这些数据的获取和处理过程,需要大量的人工参与和精细化操作。广义上,研发大模型的数据工程不仅包括上述步骤,还涵盖了在增量预训练、SFT(特殊任务微调)、RAG(检索增强生成)和Prompt等不同阶段的数据处理和应用。狭义上,研发大模型的数据工程可以定义为:依据具体的研发场景与任务,采集相关研发数据,并生成模型预训练语料或微调数据集。原创 2024-07-31 10:51:12 · 131 阅读 · 0 评论 -
大语言模型的微调策略
冻结大部分参数:在训练过程中冻结模型的大部分参数,只调整少量参数。这些参数可以是特定层的参数、添加的适应层参数(如适应性子网络)或其他选择性参数。训练过程:进行微调训练,只更新选定的参数。评估指标:选择适当的评估指标(如准确率、精确率、召回率、F1分数等)来评估模型的性能。数据收集:与全面微调类似,收集高质量的任务或领域特定的数据。训练设置:设定训练超参数,特别是需要调整的参数部分的学习率。数据清洗和标注:确保数据的质量和一致性,进行必要的标注。微调参数选择:根据评估结果,选择最适合调整的参数集。原创 2024-08-02 10:37:10 · 158 阅读 · 0 评论 -
比刷剧还爽!从零开始动手实践小模型训练指南
此外,小模型还能够在保持相对较高性能的同时,提供高效的解决方案,为广泛的应用场景带来了灵活性和可行性选择。:通过结合检索和生成的优势,创建一个RAG(Retrieval-Augmented Generation)系统,可以提升你的技术水平,并为你的项目增添实用价值。从零训练1B以下的小模型,对于资源有限的开发者来说,从零开始训练一个小模型是一个可行且有益的实践项目。最近,我在网上搜集了不少资料,主要是GitHub上的仓库和Arxiv上的论文,并将其记录在这里,供大家参考和学习。,参数最小达到0.5B。原创 2024-08-07 10:22:42 · 528 阅读 · 0 评论 -
什么是Agent?揭秘AI时代的智能代理
随着人工智能的迅猛发展,越来越多的新概念和技术应运而生。在这些技术中,“Agent”成为了一个备受关注的话题。那么,什么是Agent?它又有什么样的独特之处呢?本文将带你深入了解Agent的概念、能力谱系及其在AI系统中的应用。在没有统一定义的情况下,Agent的含义因背景而异。为了便于理解,我们可以参考一个较为技术化的定义:Agent是用大型语言模型(LLM)来决定一个应用控制流程的系统。简单来说,Agent利用AI模型来驱动应用程序的行为和决策。Agent的能力谱系。原创 2024-07-29 09:33:11 · 133 阅读 · 0 评论 -
微软下一代RAG:GraphRAG
尽管GraphRAG已被评估其对提示和数据集成注入攻击的弹性,并已探查特定类型的危害,但用户配置GraphRAG所用的LLM可能会生成不适当或冒犯性的内容,这可能使其在没有具体用例和模型的附加缓解措施的情况下不适合在敏感环境中部署。GraphRAG旨在支持关键的信息发现和分析用例,这些用例中所需的信息分散在许多文档中,信息可能是嘈杂的,混杂着错误和/或虚假信息,或者用户希望回答的问题比底层数据能直接回答的问题更加抽象或具有主题性。对于独特的数据集,有效的索引依赖于正确识别领域特定的概念。原创 2024-08-01 09:42:58 · 139 阅读 · 0 评论