- 博客(58)
- 收藏
- 关注
原创 不信这个书单治不了你的大模型焦虑症!学习大模型最值得推荐的几本书
要说现在最热门的技术,可谓非大模型莫属!不少小伙伴都想要学习大模型技术,转战AI领域,以适应未来的大趋势,寻求更有前景的发展~~然而,在学习大模型技术这条道路上,却不知道如何进行系统的学习,所以本期书单就为大家奉献一场AI大模型的饕餮盛宴,从大模型理论基础到大模型工具应用,构建自己的LLM应用程序……应有尽有,如果你是AI小白,想要从入门开始学起,或者想要了解AI未来的发展趋势,也有相应的图书哦~~每本书的PDF已备好,有需要的朋友可以下滑到文末领取!!!大模型集锦。
2024-09-11 11:07:33
441
原创 AI产品经理需要哪些必备技能?如何成为AI产品经理?
AI产品经理是主要负责调研行业,理解行业业务,收集或挖掘行业需求,分析目标用户,输出用户画像,定位产品,制定产品战略,找出解决需求的方案,并转化为AI产品,设计产品,输出产品验收产品,与运营对接,上线等工作职责。是的,都2024年了,不会A!的产品经理不是一个好的产品经理,下面这几项技能的是所有AI产品经理必备的几个技能!!!
2024-09-10 10:32:04
1695
原创 大模型时代下,nlp初学者需要怎么入门?
自从 ChatGPT 横空出世以来,自然语言处理(Natural Language Processing,NLP)研究领域就出现了一种消极的声音,认为大模型技术导致 NLP “死了”。有人认为 NLP 的市场肯定有,但 NLP 的研究会遇到麻烦,因为大模型的训练建立在海量数据与超高算力之上,普通研究者难以获取这样的资源,只能做些应用研究;也有人认为大模型为 NLP 打开了一片新天地,NLP 的研究整体上会再上一个新台阶。
2024-09-09 10:44:45
298
原创 一文说清:大模型AI Agent在企业应用中的6种基础类型
最后一种AI Agent严格来说是上面的几种基础Agent能力的组合。理想中的AI Agent是在丢给他一个工具包与一些知识以后,借助于大模型的理解、推理能力,完全自主的规划与分解任务,设计任务步骤,并智能的使用各种工具,检索知识,输出内容,完成任务。但是在企业应用中,由于企业知识、应用、业务需求的千差万别,以及大模型自身的不确定性,如果这么做,那么结果很可能是“开盲盒”一样的不可控。所以这也是越来越多的Agents项目要强调可控性的原因,即。
2024-09-08 08:15:00
1022
原创 手把手教你构建Agentic RAG:一种基于多文档RAG应用的AI Agent智能体
经典RAG应用的范式与架构已经非常流行,你甚至可以在很短的时间内借助成熟框架开发一个简单能用的RAG应用:用户问题被输入RAG、应用执行检索、从被向量化的文档中检索相关知识块、送入到LLM(大语言模型)进行合成响应:
2024-09-07 08:00:00
1551
原创 【中关村】产业大模型应用白皮书:融入产业,赋能未来!(免费下载)
产业大模型正从技术驱动转向需求驱动,成为新一轮科技革命和产业变革的核心驱动力。基础大模型和产业大模型的结合,为传统产业提供了智能化、高端化、绿色化升级的新路径。大模型在医疗、金融、制造等行业的应用展现出强大的复杂问题处理能力,推动产业升级。产业大模型应用需要评价标准,以确保其可控性、能力增强、算力性价比、安全性和部署可行性。中国在大模型产业应用方面展现出竞争优势,政策支持和企业实践推动了大模型技术的快速发展和应用。
2024-09-06 10:45:00
188
原创 【AI大模型必看书籍!】Transformer、BERT和GPT:包括ChatGPT和提示工程,379页pdf
这本书全面介绍了涵盖Transformer架构、BERT模型和GPT系列(包括GPT-3和GPT-4)的详细信息的一系列主题。书中分为十个章节,从基础概念如注意力机制开始,然后是令牌化技术,探索Transformer和BERT架构的细微差别,最后在与GPT系列最新进展相关的高级主题中达到高潮,包括ChatGPT。关键章节提供了深度学习中注意力演化和重要性的洞见、Transformer架构的复杂性、对BERT家族的两部分探索,以及关于使用GPT-3的实践指导。
2024-09-05 09:59:23
436
原创 大模型,开始“抢人”
随着大模型在国内这片土壤生根发芽,企业对相关人才的争夺也愈发激烈,在招聘软件上我们不难看到,不少企业甚至开出高年薪以抢夺算法、深度学习等高级技术人才。不过,在人才的争夺之外,还有那些问题是大模型落地过程中急需解决的?一起来看看作者的解读。大模型越来越火,抢人大战愈演愈烈。在AIGC、ChatGPT的带动下,大模型概念开始被广泛讨论。2023年还未过半,就已经有包括百度、阿里、腾讯、商汤、京东、科大讯飞等多家互联网、AI公司陆续宣布对大模型展开探索。
2024-07-15 11:40:45
729
原创 【DataLoader】AI 框架基础技术之数据读取
数据读取是模型训练的一个基本组成部分。相比于复杂的网络算法设计,数据读取这个概念听起来简单且微不足道。然而,在实际业务落地中,数据读取往往是造成模型速度差和训练精度低的元凶。。今天,我们将做一个总述型的介绍,讲讲数据读取中不容小觑的技术点。
2024-07-15 11:39:47
1153
原创 【大规模训练】混合专家系统
混合专家系统(Mixture of Experts, MoE)是在神经网络 (Neural Network, NN) 领域发展起来的一种集成学习(Ensemble Learning) 技术。传统的深度学习模型在训练时,对于每个输入样本,整个网络都会参与计算。随着模型越来越大,训练使用的样本数据越来越多,训练的开销越来越难以承受。而 MoE 可以动态激活部分神经网络,从而实现在不增加计算量的前提下大幅度增加模型参数量。MoE 技术目前是训练万亿参数量级模型的关键技术。
2024-07-15 11:38:49
947
原创 关于领导力的5大模型
领导”并非单纯等同于管理,发挥领导力有助于实现组织和团队的高速发展。本文将介绍关于领导力的5大模型。一起来看看吧。“领导”并非单纯地等同于“管理”。彼得·德鲁克认为:管理是把事情做好,领导力是做正确的事情。只有两者有效结合起来,才能够发挥出巨大的效用,实现组织和团队的高速发展。本文将介绍关于领导力的5大模型。
2024-07-13 10:57:48
2877
原创 【AutoML】如何支持海量数据点的训练曲线可视化
本篇文章介绍如何支持海量数据点的训练曲线可视化海量数据点的训练曲线可视化对于观察和开发调试机器学习训练的意义实现支持海量数据可视化的技术实现思路支持海量数据点训练曲线可视化对于提升开发者的机器学习算法开发效率有着重要意义。本文从记录数据、存储数据和查看曲线三方面具体阐述了海量数据点训练曲线可视化在开发者具体工作流程中的需求要点,从训练端、服务端和 Web 端三个部分介绍了实现思路。希望本文对读者理解为什么要支持以及如何支持海量数据点的训练曲线可视化有帮助。
2024-07-13 10:56:40
964
原创 【大规模训练】混合专家系统
混合专家系统(Mixture of Experts, MoE)是在神经网络 (Neural Network, NN) 领域发展起来的一种集成学习(Ensemble Learning) 技术。传统的深度学习模型在训练时,对于每个输入样本,整个网络都会参与计算。随着模型越来越大,训练使用的样本数据越来越多,训练的开销越来越难以承受。而 MoE 可以动态激活部分神经网络,从而实现在不增加计算量的前提下大幅度增加模型参数量。MoE 技术目前是训练万亿参数量级模型的关键技术。
2024-07-13 10:55:22
1340
原创 端侧智能为什么有前途
可能才是难度最高的那个 —— 人工智能的价值并不直接取决于模型,而取决于在场景中,它能在多大程度上提升作业效率、降低人力成本。不同场景对人工智能模型「
2024-07-12 10:50:52
1283
原创 LLMs 千面郎君
从考察问题延展到考察知识点,再到如何优雅回答一面俱全,可以说是求职面试的必备宝典,每一部分都有上百页内容,接下来具体展示,完整版可直接下方扫码领取。为了助力朋友们跳槽面试、升职加薪、职业困境,提高自己的技术,本文给大家整了一套涵盖AI大模型所有技术栈的快速学习方法和笔记。7.什么情况用 Bert模型,什么情况用LLaMA、ChatGLM类大模型,咋选?如何解决 PPO 的训练过程同时存在4个模型(2训练,2推理),对计算资源的要求较高问题?模型如何判断回答的知识是训练过的已知的知识,怎么训练这种能力?
2024-07-12 10:49:16
1681
原创 LLMs 入门实战系列
尽管通过扩展数据集获得了性能提升,但 BLIP 的研究表明,对于视觉语言学习来说,有噪声的网络文本是次优的。对于从来没有接触过网络安全的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。【LLMs 入门实战 】 BBT-FinCUGE-Applications 学习与实战。【LLMs 入门实战 —— 十九】 聚宝盆(Cornucopia) 模型学习与实战。【LLMs 入门实战 —— 二十二】 BLIP 模型学习与实战。
2024-07-12 10:39:23
1467
原创 医疗大模型,巨头们的新赛场
随着大模型产品越来越多,落地和商业化也成为各个公司关注的核心问题。而除了通用的大模型之外,垂直行业的大模型数量也逐渐增多。比如医疗这种专业化较高的行业,大模型的加入,是否能成为新的加速器呢?说起近两年最热门的话题,那一定非大模型莫属了。众所周知,伴随着ChatGPT的强势出圈,全球范围内掀起了一波人工智能热潮,国内外的诸多企业都开足马力,推出了自己的大模型产品。而AI大模型产品的不断问世,也上演了一番“百模大战”的盛况。
2024-07-11 10:35:14
1347
原创 【LLMs 入门实战 —— 七 】Vicuna 模型学习与实战
UC伯克利学者联手CMU、斯坦福等,再次推出一个全新模型70亿/130亿参数的Vicuna,俗称「小羊驼」(骆马)。小羊驼号称能达到GPT-4的90%性能注:(实验功能:您可以指定–style rich,以便为某些非ASCII内容提供富格文本输出和更好的文本流质量。这在某些终端上可能无法正常工作。python代码解读复制代码init_kwargs {'torch_dtype': torch.float16}""""""if n == 0:return 0if n == 1:return 1。
2024-07-11 10:34:15
1084
原创 【关于 ChatGLM 微调】那些你不知道的事
本教程主要介绍对于 ChatGLM-6B 模型基于的微调。P-Tuning v2 将需要微调的参数量减少到原来的 0.1%,再通过模型量化、Gradient Checkpoint 等方法,最低只需要 7GB 显存即可运行。本节 以数据集为例介绍代码的使用方法。硬件需求。
2024-07-11 10:29:50
544
原创 3年经验的B端产品经理,应该是什么水平?
问你一个问题:你觉得3年经验的B端产品经理,应该是什么水平?很多朋友可能也没有仔细想过,自己3年后应该达到一个什么水平?能做什么体量的业务?要能拿多少薪资?前几天和一个B端产品经理聊天,他做B端产品经理快3年了,见东家没有给他涨薪的苗头,想凭这几年的经验,换一份薪资更高的工作。没想到面试第一家公司就碰壁了,面试官的很多问题都没答上来。面试复盘时才发现,自己平时大部分时间都花在画原型、写文档、跟开发沟通改bug等事情上了。原型工具用的很6,而在业务梳理、产品规划、产品架构等方面能力毫无储备。
2024-07-10 10:35:44
1257
原创 【关于 ChatGLM 微调】那些你不知道的事
本教程主要介绍对于 ChatGLM-6B 模型基于的微调。P-Tuning v2 将需要微调的参数量减少到原来的 0.1%,再通过模型量化、Gradient Checkpoint 等方法,最低只需要 7GB 显存即可运行。本节 以数据集为例介绍代码的使用方法。硬件需求。
2024-07-10 10:33:33
800
原创 ChatGLM-6B入门
ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答,更多信息请参考我们的博客。
2024-07-10 10:31:42
1035
原创 2024下半年产品经理该如何破局?
产品经理发展到现在10多年,业内已经有标准的能力模型要求和业务标准,金九银十求职季即将来临,想做产品如何选择适合的赛道,大中小厂招人有哪些差异呢?如果你正准备向产品经理方向发展,一定要先做个产品职业发展剖析,找到属于自己的“机会”。首先,我们需要明确什么是“好机会”。在产品经理的范畴内,好机会不仅意味着诱人的薪资和福利,更包括行业趋势、公司规模以及岗位发展空间的综合考量。行业选择至关重要,它决定了你的职业发展方向和潜力。而公司规模则直接影响你的工作环境和成长速度。
2024-07-09 15:01:21
883
原创 GLM4大模型微调入门实战-命名实体识别(NER)任务
大模型指令微调(Instruction Tuning)是一种针对大型预训练语言模型的微调技术,其核心目的是增强模型理解和执行特定指令的能力,使模型能够根据用户提供的自然语言指令准确、恰当地生成相应的输出或执行相关任务。指令微调特别关注于提升模型在遵循指令方面的一致性和准确性,从而拓宽模型在各种应用场景中的泛化能力和实用性。在实际应用中,我的理解是,指令微调更多把LLM看作一个更智能、更强大的传统NLP模型(比如Bert),来实现更高精度的NLP任务。
2024-07-09 14:58:15
779
原创 Qwen2大模型微调入门实战-命名实体识别(NER)任务
大模型指令微调(Instruction Tuning)是一种针对大型预训练语言模型的微调技术,其核心目的是增强模型理解和执行特定指令的能力,使模型能够根据用户提供的自然语言指令准确、恰当地生成相应的输出或执行相关任务。指令微调特别关注于提升模型在遵循指令方面的一致性和准确性,从而拓宽模型在各种应用场景中的泛化能力和实用性。在实际应用中,我的理解是,指令微调更多把LLM看作一个更智能、更强大的传统NLP模型(比如Bert),来实现更高精度的NLP任务。
2024-07-09 14:56:53
1474
1
原创 Stable Diffusion文生图模型训练入门实战(完整代码)
(SD1.5)是由Stability AI在2022年8月22日开源的文生图模型,是SD最经典也是社区最活跃的模型之一。以SD1.5作为预训练模型,在火影忍者数据集上微调一个火影风格的文生图模型(非Lora方式),是学习的入门任务。显存要求 22GB左右在本文中,我们会使用模型在数据集上做训练,同时使用监控训练过程、评估模型效果。
2024-07-08 08:30:00
1106
1
原创 真假“长文本”之争:国产大模型市场激战正酣,营销新战场浮现
进入2024年这一国产大模型落地元年,长文本技术无疑成为了市场关注的焦点。然而,技术的优劣并非仅由长度决定,更需关注其在实际应用中的表现。对于大模型厂商而言,唯有在技术创新、用户体验和营销策略上不断突破自我,才能在激烈的市场竞争中立于不败之地。
2024-07-08 08:30:00
426
原创 Qwen2大模型微调入门实战-命名实体识别(NER)任务
大模型指令微调(Instruction Tuning)是一种针对大型预训练语言模型的微调技术,其核心目的是增强模型理解和执行特定指令的能力,使模型能够根据用户提供的自然语言指令准确、恰当地生成相应的输出或执行相关任务。指令微调特别关注于提升模型在遵循指令方面的一致性和准确性,从而拓宽模型在各种应用场景中的泛化能力和实用性。在实际应用中,我的理解是,指令微调更多把LLM看作一个更智能、更强大的传统NLP模型(比如Bert),来实现更高精度的NLP任务。
2024-07-08 06:30:00
907
原创 SaaS行业的AI化征程:穿越“大模型焦虑”,拥抱“AI自信”
在AI浪潮的推动下,SaaS行业正经历着前所未有的变革。面对“大模型焦虑”,SaaS厂商应主动出击,以战略性的AI应用策略为指引,充分利用开源资源与创新工具,深入挖掘行业Know-how的价值,构建起坚不可摧的竞争壁垒。同时,注重隐私安全保护与知识库的持续迭代,确保AI服务的稳健运行与持续优化。只有这样,SaaS厂商才能在AI化升级的道路上越走越远,最终实现产品与服务的全面转型升级。读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用如果你是零基础小白,想快速入门大模型是可以考虑的。
2024-07-05 11:36:53
747
原创 Stable-Baseline3 x SwanLab:可视化强化学习训练
Stable Baselines3 (SB3) 是一个强化学习的开源库,基于 PyTorch 框架构建。它是 Stable Baselines 项目的继任者,旨在提供一组可靠且经过良好测试的RL算法实现,便于研究和应用。StableBaseline3主要被应用于机器人控制、游戏AI、自动驾驶、金融交易等领域。你可以使用sb3快速进行模型训练,同时使用SwanLab进行实验跟踪与可视化。
2024-07-05 11:31:29
489
原创 Sentence Transformers x SwanLab:可视化Embedding训练
(又名SBERT)是访问、使用和训练文本和图像嵌入(Embedding)模型的Python库。你可以使用Sentence Transformers快速进行模型训练,同时使用SwanLab进行实验跟踪与可视化。
2024-07-05 11:30:31
333
原创 吴恩达又一神作,吹爆这本书!
学习大模型肯定的看看这本书,如果你是零基础小白,想快速入门大模型是可以考虑的。一方面是学习时间相对较短,学习内容更全面更集中。二方面是可以根据这些资料规划好学习计划和方向。
2024-07-04 15:02:32
1249
原创 GLM4指令微调入门实战(完整代码)
大模型指令微调(Instruction Tuning)**是一种针对大型预训练语言模型的微调技术,其核心目的是增强**模型理解和执行特定指令的能力,使模型能够根据用户提供的自然语言指令准确、恰当地生成相应的输出或执行相关任务。指令微调特别关注于提升模型在遵循指令方面的一致性和准确性,从而拓宽模型在各种应用场景中的泛化能力和实用性。在实际应用中,我的理解是,指令微调更多把LLM看作一个更智能、更强大的传统NLP模型(比如Bert),来实现更高精度的文本预测任务。
2024-07-04 14:59:29
691
1
原创 Qwen2大模型微调入门实战(完整代码)
是通义千问团队的开源大语言模型,由阿里云通义实验室研发。以Qwen2作为基座大模型,通过指令微调的方式实现高准确率的文本分类,是学习的入门任务。指令微调是一种通过在由(指令,输出)对组成的数据集上进一步训练LLMs的过程。其中,指令代表模型的人类指令,输出代表遵循指令的期望输出。这个过程有助于弥合LLMs的下一个词预测目标与用户让LLMs遵循人类指令的目标之间的差距。在这个任务中我们会使用模型在数据集上进行指令微调任务,同时使用SwanLab进行监控和可视化。本教程参考了。
2024-07-04 14:58:18
867
原创 七种大模型微调方法:让你的Offer拿到爽
通过上述七种大模型微调方法,你可以根据具体任务和资源限制选择最适合的微调策略。无论是LoRA的高效微调、QLoRA的量化优化,还是适配器调整的灵活性,都能够帮助你更好地利用预训练模型的优势,从而在求职过程中脱颖而出,让offer拿到爽。希望本文能为你在人工智能领域的求职之路提供有力支持。读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用如果你是零基础小白,想快速入门大模型是可以考虑的。一方面是学习时间相对较短,学习内容更全面更集中。二方面是可以根据这些资料规划好学习计划和方向。
2024-07-03 11:46:51
1653
原创 PyTorch MNIST手写体识别:SwanLab可视化训练
MNIST手写体识别任务是一个经典的计算机视觉问题,属于图像分类任务,目标是输入一个手写数字图像,AI模型可以正确预测数字是多少。MNIST数据集包含70,000个手写数字图像,每个图像大小为28x28像素。这些图像分为两部分:60,000个训练集和10,000个测试集。
2024-07-03 11:43:58
978
原创 Ultralytics x SwanLab:可视化YOLO模型训练
Ultralytics是YOLO官方团队推出的CV训练与推理框架,不仅支持目标检测任务,还支持分割、姿态识别、分类等更多任务。是一个深度学习实验管理与训练可视化工具,由西安电子科技大学团队打造,融合了Weights & Biases与Tensorboard的特点,能够方便地进行 训练可视化、多实验对比、超参数记录、大型实验管理和团队协作,并支持用网页链接的方式分享你的实验。你可以使用Ultralytics快速进行目标检测模型训练,同时使用SwanLab进行实验跟踪与可视化。可视化结果(可以在直接预览。
2024-07-03 11:39:00
839
原创 BERT-IMDB电影评论情感分类实战:SwanLab可视化训练
基于BERT模型的IMDB电影评论情感分类,是NLP经典的Hello World任务之一。这篇文章我将带大家使用SwanLab、transformers、datasets三个开源工具,完成从数据集准备、代码编写、可视化训练的全过程。观察了一下,中文互联网上似乎很少有能直接跑起来的BERT训练代码和教程,所以也希望这篇文章可以帮到大家。
2024-07-02 11:48:41
376
原创 SwanLab快速上手(Wandb国产平替)
swanlab.cnSwanLab是一款开源、轻量级的AI实验跟踪工具,提供了一个跟踪、比较、和协作实验的平台,旨在加速AI研发团队100倍的研发效率。其提供了友好的API和漂亮的界面,结合了超参数跟踪、指标记录、在线协作、实验链接分享、实时消息通知等功能,让您可以快速跟踪ML实验、可视化过程、分享给同伴。相比于Tensorboard,SwanLab记录的信息更全、使用更方便。相比于Wandb,则访问速度更快,更方便于在国内使用,与主创团队交流更容易。
2024-07-02 11:46:48
1301
2
原创 AI趋势引爆热议:程序员的下一个就业危机?
总体来说,AI程序员在增强现有程序员的生产力和代码质量方面提供了机遇,同时也给编程职业带来了挑战。需要注意的是,AI不太可能在近期内完全取代有经验的程序员,尤其在需要复杂决策和创新的任务上。不过,程序员作为职业群体,将需要不断适应新技术的发展,并找到与AI合作的最佳路径。当然,未来AI技术可能会进一步发展,有可能在某些特定的编程任务中达到高水平的自主性。程序员工作的某些方面可能会被自动化取代,但这可能会导致程序员角色的转变,而不是完全的取代。
2024-07-02 11:39:29
1189
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人