自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(168)
  • 收藏
  • 关注

原创 某瓣9.5分!谁懂啊?通宵也要看完这本书!- 《大规模语言模型:从理论到实践》

大规模语言模型:从理论到实践》一书深入剖析了大规模语言模型(LLM)的理论基础和实践应用。作者通过深入浅出的方式,带领读者从LLM的起源、发展到前沿技术一探究竟,同时结合实际案例,让读者更好地理解LLM在自然语言处理、语音识别、机器翻译等领域的应用。全书大概有 300 页篇幅,描述了大模型从理论到实战的每个阶段,是一本实战部分详实的手册书籍。包括:1、基础理论2、语言模型3、分布式训练4、有监督微调5、强化学习6、agent7、大模型应用8、 DeepSpeed-Chat框架实战。

2024-10-01 09:00:00 430

原创 AI模型训练和评估的最佳实践:Transformers Trainer与Evaluate库详解

Transformers Trainer 和 Hugging Face Evaluate 是机器学习工作流中的两个重要工具。Trainer 模块通过简化微调训练过程和统一配置参数,帮助用户高效地进行模型训练;Evaluate 库则通过简便的一致性评估方法,确保模型性能的准确评估。掌握这些工具,将使您的机器学习实验更加高效和可靠。

2024-09-27 10:23:02 1532

原创 还在盲目自学大模型,骂醒一个是一个!!

最近刷到很多人在自学大模型,看得我是忍不住了,真的得骂醒你们!说真的,很多人学了这么久,到头来还是在原地打转,为什么?你们浪费了太多时间在不该看的东西上!

2024-09-26 11:59:23 1498

原创 大模型RAG入门到实战基础教程(非常详细),大模型RAG入门到精通,收藏这一篇就够了!

大模型(Large Language Model,LLM)的浪潮已经席卷了几乎各行业,但当涉及到专业场景或行业细分域时,通用大模型就会面临专业知识不足的问题。相对于成本昂贵的“Post Train”或“SFT”,基于RAG的技术方案往成为一种更优选择。本文从RAG架构入手,详细介绍相关技术细节,并附上一份实践案例。本文列举了LLM的问题。简单介绍了什么是 RAG ,以及 RAG 的流程。最后使用了一个简单的LangChain代码示例来展示 RAG 的使用。最后对比了 RAG 和微调的区别,方便大家选型。

2024-09-26 10:30:21 1288

原创 【LLM开源项目】LLMs-微调框架-LLaMA-Factory入门指南v3.0

我们通过量化技术将高精度表示的预训练模型转换为低精度的模型,从而在避免过多损失模型性能的情况下减少显存占用并加速推理,我们希望低精度数据类型在有限的表示范围内尽可能地接近高精度数据类型的表示,因此我们需要指定量化位数。在预训练结束后,模型的参数得到初始化,模型能够理解语义、语法以及识别上下文关系,在处理一般性任务时有着不错的表现。当我们基于预训练模型训练好 LoRA 适配器后,我们不希望在每次推理的时候分别加载预训练模型和 LoRA 适配器,因此我们需要将预训练模型和 LoRA 适配器合并导出成一个模型。

2024-09-25 10:46:05 1142

原创 AI产品经理面试题整理【已拿offer】

整理了我面试过的AI产品经理岗位的面试题,供大家参考

2024-09-25 10:30:07 938

原创 2024 AI前端,后端,全栈工程师需要哪些技能

本文翻译自TheNewStack, 介绍虽然很简单很干, 但确实抓住了关键点, 因此也专门整理出来, 可以用作AI前端工程师, AI后端工程师,以及AI全栈工程师的招聘和职业发展参考 :根据最新的 Stack Overflow 调查,AI 开发人员是软件行业中收入最高的群体之一。随着 76% 的受访者正在使用或计划在开发过程中使用 AI 工具,对 AI 开发人员的需求将继续上升。过去两年,AI 的应用可能性进一步扩大,AI 改变了企业运营、市场营销、产品销售、客户关系管理以及研发的方式。

2024-09-24 10:46:46 1305

原创 时序建模基础——RevIN

在之前介绍过的很多预训练模型中都有见到RevIN的身影,今天就给大家讲讲RevIN的具体原理。对于时间序列,均值和方差等统计特性随时间的变化是非常普遍的,例如病人的某些健康指标随时间及身体状况变化,小区用电量随季节发生变化等。时间序列的这类分布变化为预测模型带来了很大的挑战,RevIN(可逆实例归一化)提出了可学习的归一化和反归一化方法来克服此类变化,提升预测模型的泛化性能。给定输入序列,目标是预测序列在未来一定窗口长度内的值,。RevIN包含归一化和反归一化两个步骤,首先是输入序列的归一化过程。

2024-09-23 09:50:56 1313

原创 如何融合文本信息提高时序预训练模型?

今天小编给大家介绍两篇联合文本和时序数据进行预训练的文章。文献地址:https://arxiv.org/pdf/2310.09751.pdf代码地址:https://github.com/liuxu77/UniTimeUniTime的目标是构建一个能够对语言和时序模进行跨模态建模的统一架构,并且能够灵活适应多领域具有不同特性的数据。文章提出要有效构建一个能够处理来自多样化领域数据的统一模型,面临以下三大挑战,1)变化的数据特性,不同变量(通道)数量、不同的历史长度和未来预测长度。

2024-09-23 09:48:33 1320

原创 腾讯大模型算法实习生面试题,大家秋招上岸

博主是过年某985研二,过完年打算找大厂实习offer,本次主要记录了本小菜研找实习的坎坷历程,第一轮 整体面试感觉:偏难。腾讯大模型算法实习生。(安全链接,放心点击)(安全链接,放心点击)

2024-09-21 10:40:05 559

原创 一个非常火的开源项目!外语视频一键AI翻译、配音、加字幕,后面还会增加对口型的功能

Linly-Dubbing 是一个基于AI的多语言视频配音和翻译工具,为用户提供多样化和高质量的配音选项。该项目利用最新的AI技术,包括语音识别、大型语言模型翻译、AI声音克隆及数字人唇同步技术,以实现视频内容的自然多语种体验。Linly-Dubbing支持中文及多种其他语言的配音和字幕翻译,适合国际教育和全球内容本地化使用。

2024-09-21 10:32:13 1610

原创 如何让大模型更好地进行场景落地?

自ChatGPT模型问世后,在全球范围内掀起了AI新浪潮。有很多企业和高校也随之开源了一些效果优异的大模型,例如:Qwen系列模型、MiniCPM序列模型、Yi系列模型、ChatGLM系列模型、Llama系列模型、Baichuan系列模型、Deepseek系列模型、Moss模型等。图片来自:A Survey of Large Language Models并且在去年的一整年中,大多数人都在做底座通用大模型的搭建、垂直领域大模型预训练或微调等工作。

2024-09-20 09:57:19 744

原创 复旦大学的第一本大模型中文书真的不要太强-《大规模语言模型 从理论到实践》

复旦大学NLP实验室的大牛教授们出书了!国内第一本全面介绍大语言模型的中文书,让普通人也能感受AI的魔力!📚全书8章,深入浅出,从基础理论到实战应用,一网打尽!🌟第一部分:语言模型基础,入门必读!🌟第二部分:预训练秘籍,构建数据的奥秘。🌟第三部分:指令理解与微调,让AI更懂你!🌟第四部分:扩展应用,评估技巧,让你的AI飞得更高!亮点:300+论文深度解读,作者团队亲授从0到1的训练全流程,绝对不容错过!复旦出品,必属精品!大模型方向的同学们,这本书是你的宝典,快去看看吧!

2024-09-20 09:53:18 1183

原创 基于LangChain手工测试用例转App自动化测试生成工具

App 自动化测试用例生成工具需求说明。如何通过 LangChain 实现 App 自动化测试用例生成工具。在大模型时代,我们如何有效的去学习大模型?现如今大模型岗位需求越来越大,但是相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。掌握大模型技术你还能拥有更多可能性• 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程;

2024-09-19 11:04:15 636

原创 “基于 Llama 的模型都有哪些?有什么细微的差异?”

基于 Llama 的模型都有哪些?有什么细微的差异?现在的模型架构基本都是 Llama 了。即使本来也有一些自己独创的结构,但是随着 Llama 生态环境的日趋统一,也都被迫向 Llama 低头了,不然没人适配你的特殊架构,自然就不带你玩了。比如 GLM 之前属于 Prefix LM,但是现在也变成 Llama 类似了。。今天就聊聊跟 Llama 很像的模型之间的细微差异。Llama 目前有3代,先看一下 Llama 自己的变化,然后再以 Llama 为基准看一下其他模型与 Llama 的不同。

2024-09-18 12:01:42 851

原创 如何用python构建简单神经网络?

今天,我们将运用Python来搭建一个简单的神经网络模型!并深入浅出地探索其背后的运作原理。提及神经网络时,我们可以将其视为一个高度灵活的函数来理解和应用。为了做出准确的预测,我们需要构建能够同时组合多个输入的神经网络。,神经网络完全具备这种能力。拥有多个输入意味着我们也将拥有多个权重,我们的新神经网络将能够在每次预测时同时接受多个输入。这使得网络能够结合各种形式的信息来做出更明智的决策,但使用权重的基本机制并未改变。我们仍然会对每个输入进行处理,就像通过各自的“音量旋钮”一样。

2024-09-18 10:07:12 1053

原创 【速成】LLM大模型学习路径指南

大家好!整理了一些我的大模型学习路线和参考资料,供初学者入门了解和实践。这个简化版的学习路线更注重核心知识点和实践,适合希望在短时间内快速入门AI大模型的学习者

2024-09-17 09:00:00 938

原创 想要构建AI大模型, 这些技术你必须得知道!

*,把你的需求告诉GPTs,它会按照你的想法去生成新的ChatGPT,相当于把你的想法写成了一个模板,供你个性化使用。**每次使用的时候直接输入你的话题或者部分内容,这时候的ChatGPT就会按照你设定的使用规则跟你对话,直接输出你需要的内容,而不需要你每次都输入一定的提示指令去引导。很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,下面是我整理好的一套完整的学习路线,希望能够帮助到你们学习AI大模型。,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。

2024-09-16 09:15:00 909

原创 吹爆大佬的新书!比刷剧还上头!几乎把大模型讲透了

本书以自然语言处理中语言模型为主线,主要内容分为三部分,包括语言模型基础、大模型理论和大模型实践。然后,在语言模型基础部分介绍了词向量、统计语言型、神经语言模型和预训练语言模型。本书从自然语言处理的背景知识出发,逐步引人词向量、统计语言型、神经语言模型和预训练语言模型,然后详细介绍了大模型的架构、训练方法、应用及评估策略,并通过丰富的实例和习题,帮助读者加深理解和掌握大模型技术的核心内容。特别的是,本书对大模型的本地开发和应用开发部分,提供了实战演练和实用的代码示例,对实际开发工作具有重要的指导意义。

2024-09-15 12:00:00 340

原创 GraphRAG源码解读:基于知识图谱构建的检索增强生成系统

讨论代码前, 我们先简单了解下 GraphRAG 项目的目标与定位. 在论文中, 作者很明确地提出了一个常规 RAG 无法处理的应用场景:也就是类似该数据集的主题是什么这种 high level 的总结性问题。作者认为, 这种应用场景本质上是一种聚焦于查询的总结性(QueryFocused Summarization, QFS)任务, 单纯只做数据检索是无法解决的.。相应地, 其解决思路也在论文中清楚地描述出来了:

2024-09-14 11:02:42 1515

原创 如何入行【大模型算法工程师】

这半年【大模型】真是火的一塌糊涂,很多师弟问过我,对这种问题,真是颇感无奈,只能说现在大家追热点真是一点不含糊。那在这,简单讲讲,校招生/工作经验不多的朋友们,如何准备【大模型算法工程师】的面试吧。

2024-09-13 13:12:36 977

原创 Langchain.js你必须要知道的核心组件

我们先来简单介绍一下Langchain.js中的一些核心概念:聊天消息(Chats)、模版(Templates)、工具(Tools)、调用链(Chains)。Langchain对于开发AI应用的确是一个不可多得的工具。其对大模型调用的拆解和封装值得我们借鉴和学习。读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用如果你是零基础小白,想快速入门大模型是可以考虑的。一方面是学习时间相对较短,学习内容更全面更集中。二方面是可以根据这些资料规划好学习计划和方向。

2024-09-13 13:07:53 1351

原创 AI时代如何转型到AI产品经理-转型必看小白也能拿下!!

通过上述步骤,结合自身的兴趣和优势,可以逐步建立起作为AI产品经理所需的专业能力。记住,转型不是一蹴而就的过程,需要持之以恒的努力和不断的自我提升。AI产品经理,是现在最”香“的岗位之一,如何成为AI产品经理呢?这份AI知识大礼包,共80G,可能是全网最全的AI产品资料,助你成功转型!是否懂 AI、是否懂产品经理,是否具备利用大模型去开发应用能力,是否能够对大模型进行调优,将会是决定自己职业前景的重要参数。✅深入了解大语言模型商业应用,快速掌握AI产品技能。📖AI产品经理经典面试八股文。

2024-09-12 11:43:11 1408

原创 探究大模型微调 Lora 的不同形态(上篇): AdaLora、 AsLora、 PiSSA、 DoRA

最近一直在研究 SFT 的落地工作,其中 LoRA 是一个无法避开的微调技术。相比全参数微调,LoRA 提供了一种更为友好和安全的微调方案。首先,LoRA 在资源使用上更为高效。它能显著节省显存,使得我们在有限的计算资源下也能训练 size 更大的模型。其次,LoRA 具有一定的正则化效果,类似于 dropout 或 mask。这种特性使得模型在学习下游任务时,能够减少遗忘现象, 关于这方面的详细分析,可以参考 LoRA Learns Less and Forgets Less。

2024-09-12 09:59:06 1186

原创 大模型学习路线,现在转大模型还来得及吗?

大模型学习路线,现在转大模型还来得及吗?附大模型学习路线,从基础入门到项目实战!

2024-09-11 11:22:33 1566

原创 大模型研发全揭秘:AI模型设计的五大关键步骤

为了科学地评估模型的表现,必须设置合适的评估指标。不同任务需要不同的指标,常见的评估指标包括准确率、精确率、召回率和F1值。本文详细探讨了大模型项目中的模型设计环节。模型设计需要全面理解问题、选择合适的算法、设计模型架构、设置超参数并定义科学的评估指标。希望通过本文的讲解,读者能够在实际项目中更好地进行模型设计和优化。未来的文章将继续探讨模型调试、优化以及部署的最佳实践。

2024-09-11 10:03:48 1451

原创 如果我在入行AI产品经理前,刷到这篇文章该多好啊 !!!

如果我在入行AI产品经理前,刷到这篇文章该多好啊 !!!什么才叫真正的入局AI产品经理?是否懂 AI、是否懂产品经理,是否具备利用大模型去开发应用能力,是否能够对大模型进行调优,将会是决定自己职业前景的重要参数。

2024-09-10 11:05:39 530

原创 大模型微调有必要做吗?LoRa还是RAG?

我需要对大模型做微调吗?想自定义大模型时,选择:微调还是RAG还是ICL?

2024-09-10 10:02:53 759

原创 我算见识到算法岗transformer面试的难度了

也算是见识到了transformer的面试难度了1.Transformer为何使用多头注意力机制?(为什么不使用一个头)2.Transformer为什么Q和K使用不同的权重矩阵生成,为何不能使用同一个值进行自身的点乘?(注意和第一个问题的区别)3.Transformer计算attention的时候为何选择点乘而不是加法?两者计算复杂度和效果上有什么区别?4.为什么在进行softmax之前需要对attention进行scaled(为什么除以dk的平方根),并使用公式推导进行讲解。

2024-09-09 11:48:08 726

原创 Dropout正则化:提升PyTorch模型性能的神器!

本文展示了在PyTorch模型中添加Dropout正则化如何影响模型在损失和准确率方面的性能。Dropout正则化是机器学习中的一种方法,通过在神经网络中随机丢弃一些单元(神经元)来模拟同时训练多个网络架构的效果,这对于减少训练过程中的过拟合风险至关重要。要在PyTorch模型中集成Dropout正则化,可以方便地使用torch.nn.Dropout类。这个类需要一个输入参数,即dropout率,它表示神经元被关闭(即不参与训练)的概率。Dropout可以应用于任何非输出层之后。

2024-09-09 09:58:16 1393

原创 转行大模型真的不难—面了一个转行过来的top2硕士,看他是怎么做的

虽然他不是计算机科班出身,但可以看出来对业务是非常了解的。对于想要转行的小伙伴,我认为转入llm赛道的难度没有那么高,可以大胆尝试

2024-09-08 14:30:00 837

原创 Unsloth微调环境搭建与LLaMA 3.1-8B模型微调实践指南

本文详细介绍了如何使用Unsloth框架在WSL环境下对LLaMA 3.1-8B模型进行微调的全过程。通过从环境搭建、微调过程等,读者可以一步步了解如何高效微调自己的专属模型,并通过实例演示了微调后模型的推理效果。本教程特别适合初学者,帮助他们快速掌握Unsloth框架的应用。

2024-09-07 10:00:00 2243 1

原创 最近大模型最火的就业方向有哪些?

在2023和2024年,大语言模型的发展迎来了绝对风口,吸引了大量创业者和投资者。然而,经过一年的发展,许多公司已经销声匿迹。那么,未来大模型方向上还有哪些可以继续发展的方向呢?

2024-09-06 12:04:22 1165

原创 RAG 进阶:零成本 chat_with_readthedocs

假设你已经熟悉 readthedocs 基本用法,可以直接拷贝 HuixiangDou docs 目录。zh 或 en 目录皆可在 requirements/doc.txt 设置自定义主题https://github.com/tpoisonooo/pytorch_sphinx_theme 是我们的自定义主题实现,主要是:在 layout.html 创建了一个 chatButton 和空白 container为 chatButton 绑定事件。

2024-09-06 11:59:42 903

原创 我选称之为大模型界的神书!!大模型与AIGC在医疗领域的革命性成果!

LLMs and Generative AI for Healthcare》这本书可能会探讨大型语言模型和生成式人工智能在医疗领域的应用。这本书可能会详细介绍LLMs和Generative AI的原理、技术和应用,并重点讨论它们在医疗领域的潜力和挑战。

2024-09-05 11:33:13 819

原创 万字精研:大型语言模型微调Fine-Tuning技术——14种主流方法的原理、适用场景及实践指南

BitFit对微调机制的一种积极探索,也很简单,通过仅调整 bias 效果就能有不错的效果,但没有具体阐述原理,就是通过猜测加实验得到的结果。同时,作者提出一个观点:微调的过程不是让模型适应另外的数据分布,而是让模型更好的应用出本身的表征能力。特点:训练参数量极小(约 0.1%)。在大部分任务上效果会差于 LoRA、Adapter 等方法。在每一个 Transformer 层都带上一些 virtual token 作为前缀,以适应不同的任务。

2024-09-05 10:03:06 1221

原创 多模态最新进展!单模态增益多模态学习,解决多模态和单模态学习目标梯度冲突问题

具有针对性的单模态学习目标的多模态学习方法在缓解多模态学习不平衡问题方面表现出了卓越的功效。然而,。为了很好地减少这些冲突,作者观察了多模态损失和单模态损失之间的差异,其中更容易学习的多模态损失的梯度幅度和协方差都小于单模态损失。利用这一特性,文中分析了多模态场景下的 Pareto 积分,并提出了 MMPareto 算法,该算法可以确保最终梯度的方向对所有学习目标都是通用的,并增强幅度以提高泛化能力,从而提供单模态辅助。

2024-09-04 11:19:43 1219

原创 大模型顶级瘦身术!知识蒸馏联合提示学习!

近年随着大模型发展加速,逐渐暴露出一些短板,体量及泛化都存在局限性,对此,诸如量化、剪枝等等,其中,知识蒸馏的教师-学生模型得到了重点关注,既能保持原有性能,也显著减少了参数量和推理成本,为了帮助大家综合掌握,集知识蒸馏、提示工程一体的压缩工作,整理全套的相关资料进行学习。

2024-09-04 11:15:10 920

原创 LSTPrompt:无需训练,大型语言模型如何变身时间序列预测高手?

本文介绍了一种新的时序预测方法,

2024-09-03 11:34:14 982

原创 LLM大模型学习路径指南速成,两月学完

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份。研究预训练语言模型(如BERT、GPT)的原理和应用。阅读最新的研究论文,了解大模型的最新进展。学习线性代数、概率论和统计学的基本知识。选择一个开源大模型项目,进行深入研究。探索大模型的可解释性、效率和伦理问题。尝试在自己的数据集上微调预训练模型。了解人工智能和大模型的基本概念。等, 😝有需要的小伙伴,可以。学习大模型在特定领域的应用。学习深度学习的基础。

2024-09-03 11:31:31 729

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除