自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(45)
  • 收藏
  • 关注

原创 程序员转行大模型,真的是新时代的选择吗?

在2024年,程序员仍然是IT行业中备受追捧的职业。传统的编程技能虽然重要,但面对日新月异的人工智能技术,许多程序员开始思考如何转型,以适应市场的变化。许多程序员选择转行当下火热的大模型,这真的是新时代的正确选择么?

2024-10-17 14:29:22 716

原创 AI大模型开发书籍: 三本AI大模型开发入门不可错过的开发宝典

此外,本书还探讨了 AI 大模型的部署策略,包括模型的优化、转换和服务化,为读者提供了将 AI 大模型实现落地的全面方案 [1]。此外,书中还配备了大量的公式和图表,帮助读者深入理解大模型的评估过程。可以说,如果你想开发和训练自己的大模型,这本书不仅提供了不可多得的理论基础,更为重要的是,它在推理和计算方面的严谨性使其成为不可或缺的参考。本书以大语言模型的基础理论开篇,探讨了大语言模型预训练数据的构建方法,以及大语言模型如何理解并服从人类指令,介绍了大语言模型的应用和评估方法,为读者提供了更全面的视野。

2024-10-16 15:13:19 938

原创 自动驾驶算法/规划决策控制算法面经汇总、学习路线、面经心得!

自动驾驶算法/规划决策控制算法面经汇总、学习路线、面经心得!

2024-10-15 10:58:10 1399

原创 怎么才能算AI智能体?

科技界对 AI 智能体的痴迷愈演愈烈。想象一个优秀的旅行顾问会记住你喜欢靠走道的座位或你喜欢把商务旅行延长成短途旅行,一个具备强大持续性的 AI 会做同样的事情,不断构建并参考其对你的理解。不难发现,许多科幻作品中的 “失控” AI 系统,正是突破了前瞻自主边界的智能体或系统,如《复仇者联盟》中的奥创、《黑客帝国》中的机器、《2001 太空漫游》中的 HAL 9000,以及《机器人总动员》中的 AUTO。中级:控制中等价值的资源,做出对系统各部分有明显影响的决策,并在定义的操作边界内有一定的灵活性。

2024-10-14 14:24:43 963

原创 就一篇文章让你搞懂什么是AI大模型

​近年来,人工智能(AI)技术飞速发展,特别是大模型的出现,给各行各业带来了巨大的变革。无论是自然语言处理、图像识别,还是自动驾驶,AI大模型都展现出了强大的能力和广泛的应用前景。那么,什么是AI大模型?它们有哪些特点和应用场景?本文将带你一探究竟。

2024-10-10 10:33:19 1290

原创 最通俗的语言搞懂【大模型】的来龙去脉

有很多时髦、相互容易混淆概念的:AI、Machine Learning、Deep Learning、Generative AI、Large Model,它们指的是同一个概念么?不是的。,它的概念最广泛,所有研究人类智能的技术都可以归为其中。,是AI的一个子集,具体指的是通过计算机从数据中学习规律的技术。,是ML的子集,指的是一种具体的计算机算法,即。Generative AI (生成式人工智能)

2024-10-07 10:46:48 1524

原创 【LLM】能刷掉80%候选人的一道大模型面试题

大模型服务的吞吐率太小怎么办?大模型服务的吞吐率太小怎么办?这是一道能刷掉 80% 候选人的大模型面试题。更关键的是,这些同学可能到面试结束都没意识到,自己怎么就成了炮灰?这个视频我将从面试官的视角出发,给大家详细拆解一下。当面试官问出这道问题时,他的心理预期以及期待的优秀回答,尤其是最后一点,如果你能答出,立马能让面试官眼前一亮,超越 80% 的面试竞争者。

2024-10-06 17:17:48 949

原创 产品管理- 互联网产品(6):产品测试

招募有代表性用户作为测试代表参与者,评估某产品符合特定可用性及符合程度。以具有代表性的用户为测试样本。测试中多关注用户表情与动作。多鼓励与测试的用户更多的操作以用户角度发现问题。同时要做好询问工作,耐心聆听用户的意见,快点记录要点。测试完成后完善记录内容,与测试用户进行探讨。

2024-09-29 17:40:04 877

原创 产品管理- 互联网产品(5):运营知识与技能

1、运营的基础是产品认清受众,切实解决问题、用户需求2、运营活动贯穿产品的整个生命周期3、找准用户,建立MVP4、明确产品的应用场景。用户在何场景下基于何种需求使用产品?务必短流程5、AARRR模型6、运营管理流程类似产品管理流程。

2024-09-29 17:34:21 1413

原创 产品管理 - 互联网产品(4): 交互设计

原型是产品可视化的展示,包括了产品的信息架构、功有、内容、交互方式。目前业务普遍菜用了Axure作为原型设计工具。产品或交互人员通过对信息架构的梳理,确认界面内容区的划分,并通过交互方式呈现功能点。原型分为线框图、低保真图、高保真图。不管哪种呈现方式,都需要设计交互功能,“使原型活起来。不能设计交互的,要采用注释的方式。原型使用对象是产品、开发、前端、设计、测试、运营等相关人员。中小型公司的原型一般结合流程图被产品经理写入需求文档,作为需求描述一部分。

2024-09-28 16:05:15 1708

原创 产品管理 - 互联网产品(3) : 迭代管理

1、需求文档的每一个迭代版本号,都需要标识出来 根据软件文档的配置标准: 上线时:X.Y 修改时:X.YZ 草稿时:0.XY2、每一个项目干系人,都可以访问到最新版本的需求。所有角色必须要有统的一认知。这是需求迭代管理的最基本要求。3、文档归档 包托开发文档、需求文档、设计文档等文档,需要进行详细的归档。并且每次迭代完成后,需要记录本次迭代中升级了或优化改进了哪些内容,出了哪些问题怎么解决的。以此形成组织过程资产,做一每次迭代吸取失败教训,总结成功经验。并且必须做到有问题可追塑。

2024-09-28 15:17:53 1636

原创 产品管理-互联网产品(2):需求管理

需求=问题+解决方案,产品经理是解决问题专家。

2024-09-27 15:30:00 1059

原创 产品管理 - 互联网产品(1):产品战略

即产品目标、目的、方向等。根据人、公司、管理等等因素决定了产品目标有所不同,常见的产品目标有:收入、用户、市场占有率、品牌影响力、资源平衡、财务报表、抛砖引玉、融资规划等

2024-09-27 10:39:00 1009

原创 产品管理 - 总览

每个产品都需要有产品规划,不论该产品在公司的地位如何。产品规划包括内部规划与外部规划,技术调整、设计调研、人员规划等内部规划,对外合作伙伴合作、商务化运营等外部规划。

2024-09-26 16:45:00 1334

原创 大语言模型之LlaMA系列-LlaMA 2及LlaMA_chat(下)

沿用了Llama 1的设计与架构:RoPE、RMSNorm、SwiGLU+AdamWLlama 2采用了Llama 1中的大部分预训练设置和模型架构,包括标准Transformer架构、使用RMSNorm的预归一化、SwiGLU激活函数和旋转位置嵌入(RoPE)。采用AdamW 优化器进行训练,其中β1=0.9,β2=0.95,eps=10−5β1=0.9,β2=0.95,eps=10−5。同时使用余弦(consin)学习率表, 预热2000 步,并最终将学习率衰减到了峰值学习率的10%。

2024-09-26 11:08:54 1611

原创 大语言模型之LlaMA系列- LlaMA 2及LLaMA2_chat(上)

LlaMA 2是一个经过预训练与微调的基于自回归的transformer的LLMs,参数从7B至70B。同期推出的Llama 2-Chat是Llama 2专门为对话领域微调的模型。在许多开放的基准测试中Llama 2-Chat优于其他开源的聊天模型,此外Llama 2-Chat还做了可用性与安全性评估。Meta官方推荐可将其作为大部分的闭源模型替代品。

2024-09-25 17:10:42 1418

原创 全能通人工智能的能力评估框架-Levels of AGI: Operationalizing Progress on the Path to AGI

Google DeepMind提出一种针对通用人工智能 (Artificial General Intelligence, 简称AGI)框架,该框架用于评估AGI的模型及早期版本的能力和表现。该分类框架详细阐述了AGI性能、适用范围及自治力(autonomy) 的不同层次。Google希望该框架能和自动驾驶技术等级框架一样有用,为AGI提供一套通用语言便于对AGI进行模型比较、风险评估及跟踪其发展进展。

2024-09-25 10:16:07 1507

原创 大模型之基准测试集(Benchmark)-给通义千问2.0做测评的10个权威测基准测评集

CMMLU是针对中国背景下的大型语言模型的知识和推理能力的评测,由MBZUAI、上海交通大学、微软亚洲研究院共同推出,包含67个主题,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU是一个涵盖自然科学、社会科学、工程和人文学科等多个学科的综合性中国基准。是国内两大权威评测之一。

2024-09-24 18:06:04 3207

原创 人工智能-机器学习-深度学习-分类与算法梳理

目前人工智能的概念层出不穷,容易搞混,理清脉络,有益新知识入脑。为便于梳理,本文只有提纲,且笔者准备仓促,敬请勘误,不甚感激。。

2024-09-24 11:48:23 5118 1

原创 深度学习模型之BERT的24个小模型源码与预训练紧凑模型的重要性

自然语言表征模型的最新发展伴随着庞大而昂贵的模型,这些模型通过自监督的预训练的方式来利于通用领域文本。由于应用此模型的下任务的成本,关于预训练的语言表征模型的几个压缩技术已经被提及(Sun等.,2019a;Sanh,2019)。然而,令人惊讶的是仅预先训练和微调紧凑型模型的简单基线已经被忽视。在文本中,我们首先展示了较小体系架构中保留预训练的重要性,而且微调预先训练的紧凑模型可以与并行工作中提出的更精细的方法相竞争。

2024-09-23 18:06:44 1679

原创 深度学习经典模型之BERT(下)

在"深度学习经典模型之BERT(上)"我们描述了BERT基本信息、意义、与GPT和Transformer的区别、预训练、自监督等相关信息后,本章节将介绍BERT的输入、Encoder、微调及两个主流变种。

2024-09-23 15:57:35 1784

原创 深度学习经典模型之BERT(上)

BERT(Bidirectional Encoder Representations from Transformers)是一个双向transformer编码器的言表示模型。。由Google公司的研发,BERT的出现使得我们能够在一个大的数据集上面训练好一个比较深的神经网络,简化了NLP任务的训练,又提升了它的性能,使得自然语言处理有了质的飞跃。

2024-09-21 15:41:30 1723 2

原创 Transformer模型-7- Decoder

将所有的Q (Decoder端所有的 token) 去和encoder的输出的数据一起计算,来衡量他们之间的相关度,最后结合Value生成Attention。

2024-09-21 11:55:03 1434

原创 Transformer模型-6-Encoder

什么是残差连接呢?残差连接就是把网络的输入和输出相加,得到网络的输出为F(x)+xFx)+x。分析在网络结构比较深的时候,网络梯度反向传播更新参数时,容易造成梯度消失的问题,但是如果每层的输出都加上一个x的时候,就变成了F(x)+x,对x求导结果为1,所以就相当于每一层求导时都加上了一个常数项’1’,这样就有效解决了梯度消失问题。

2024-09-20 16:59:54 1062

原创 Transformer模型-5-Multi-Head Attention

所谓多头,是分别将线性的变换之后的QKV切分为H份,然后对每一份进行后续的self-attention操作。最后再连接并做线性回归产生输出。如下图:观察上图的多头注意力结构的中间的Scaled Dot-Product Attention(点积自注意力),我们可以把拆为理解为高维向量被拆分为H分低维向量,并在H个低维空间里求解各自的self-Attention。多头注意力的理解代码层面: 把原始的维度切成H份,假如h=8(切成8份),每份则为512/8=64。在每个64维做相关度(即相乘)计算。

2024-09-20 11:15:09 1393

原创 Transformer模型-4-Inputs

经过Embedding后,文本中的每一个字就被转变为一个向量 ,能够在计算机中表示。《Attention is all you need》这一论文中,作者采用的是 512维词向量表示,也就是说,每一个字被一串长度为512的字向量表示。

2024-09-19 16:26:03 1254

原创 Transformer模型-3-基本工作流程

继 《Transformer模型-2-模型架构》该文主讲Transformer的基本工作流程。

2024-09-19 11:10:57 969

原创 Transformer模型-2-模型架构

在进行了Attention操作之后,Encoder和Decoder中的每一层都包含了一个完全连接前馈网络,对每个position的向量分别进行相同的操作,由两个线性变换组成,之间有一个ReLU激活。

2024-09-14 16:39:26 1257

原创 Transformer模型-1-概述、核心部件及应用场景

Transformer模型是由谷歌公司提出的一种基于自注意力机制的神经网络模型,用于处理序列数据。相比于传统的循环神经网络模型,Transformer模型具有更好的并行性能和更短的训练时间,因此在自然语言处理领域中得到了广泛应用。

2024-09-14 11:21:26 2090

原创 大语言模型之ICL(上下文学习) - In-Context Learning Creates Task Vectors

在大语言模型(LLMs)中的上下文学习(In-Context Learning,ICL) 成为一种强大的新学习范式(learning paradigm),然而我们对它的底层机制仍不够明确清晰。尤其是将其映射到传统的机器学习框架 就很具挑战性,其中我们使用 训练集S 在特定的假设类别中去寻找一个最佳拟合 函数f(x)。

2024-09-13 17:38:24 2798 2

原创 深度学习经典模型之T5

目标函数:Span-corruption,span的平均长度为3,corruption的概率为15%更长的训练步数:采用C4数据集继续训练1M步(bs=2^11),总计约训练了1 万亿个token模型大小base版本:24层,隐层768维,12个注意力头,参数量为220Msmall版本:12层,隐层 512维,8个注意力头,参数量约为60MLarge版本:48层,隐层1024维,16个注意力头,参数量约为770M。

2024-09-13 14:51:37 5812 2

原创 多模态大语言模型综述(下)-任务实用指南

多模态大语言模型综述(下)-任务实用指南本文是的译文之。

2024-09-12 17:37:15 1024

原创 多模态大语言模型综述(中)-算法实用指南

多模态的算法可分为两类: 基础模型和大规模多模态预训练模型。, 许多新的大规模多模态预训练模型都是基于它进行改进的。下图是论文涉及的算法清单,含模型名字、年份、技术要点、功能及参考编号,以及代码开源情况。

2024-09-12 14:28:17 1423

原创 多模态大语言模型综述(上)-摘要与技术要点

本文是的译文。对多模态语言模型的探索集成了多种数据类型,诸如图像、文本、语言、视频以及其他异构内容。尽管最新的大语言模型在文本任务中表现出现,但他们往往难以处理与处理其他数据类型。 多模态大语言模型通过绑定各种模态来解决这一限制,从而能更全面的理解各类数据。本文首先定义了多模态的概念并考察了多模态算法的历史发展, 然后,我们介绍了一系列多模态的产品,重点关注主要科技公司在这一领域的努力。这将是一份实用指南,一份深入了解多模态技术方面的指南. 此外,我们还提供了一个最新算法以及常用数据集的汇编

2024-09-11 15:03:35 1545

转载 大语言模型:AI 时代的文字计算器?

截至本文撰写之时,通过预测下一个 token / 单词方式进行工作的机器仍然无法拓展知识的边界。不过,它可以根据已有的数据进行推断和填补。

2024-09-11 11:00:09 1726

原创 LLM 工程师入门:生成式 AI 的简易指南

大模型发展了近两年,Baihai IDP 也分享了近百篇 LLM 各环节的技术洞察,有前沿探讨、有落地实践、有应用经验。但回头来看,我们似乎从来没有认真、从 0 开始探讨过 LLM 的基本原理。最近,一些企业客户和伙伴来询问,是否有 LLM 的从 0 到 1 的科普贴。他们说:" 虽然在很多场景中,LLM 都已经渗透入我们的工作生活,但对其内部的运作机制,仍有很多谜团待解决。

2024-09-10 17:26:14 895

原创 个性化大模型化力:ChatGPT如何助力大模型训练师

在当今飞速变化的世界里,许多人都在追求动力和灵感,以实现个人目标并战胜各种挑战。激发他们前行的关键角色之一是训练师。然而,这个职业领域的要求往往具有挑战性,因为客户通常需要个性化和及时的支持。OpenAI开发的ChatGPT,一个强大的语言模型,可以成为训练师的得力助手,提供创新和动态的建议,有效地吸引和支持他们的客户。

2024-09-10 11:21:34 748

原创 ChatGPT的底层逻辑

上一次,七年前,在阿尔法狗面前,人类曾经哭泣过;这一次,无人哭泣,却有万众狂欢。在两次 AI 高潮之间的 7 年里,我们经历了许多,失去了许多。人们渴望拥抱某些希望,某些确定性,即使那些确定性来自一些不确定性的智慧。‍‍‍‍就我自己而言,也遭遇了一些前所未有的艰难时刻。所谓艰难,并非指一些困难的抉择,也并非说没有选项。恰恰相反,依照最优决策原理,我很容易通过期望值计算,得出最佳选项,获得所谓最大化的收益。然而,我追溯到内心的源头,重新定义了自己的期望效用,然后据此做出了有点儿辛顿风格的“

2024-09-09 14:16:29 4151 1

原创 微调语言模型前,需要考虑这三个关键方面

随着大语言模型 (LLM) 的迅速发展,越来越多团队希望针对特定领域进行模型微调。但是实践运用中总是存在一些困难,直接应用并不总是能达到理想效果。此篇文章探讨了构建特定垂直领域语言模型时需要考虑的关键因素,能够帮助读者在微调大语言模型时做出明智的决策。我们衷心期望本次内容分享能帮助更多团队高效地获得所需的垂直领域大模型。以下是译文,enjoy!

2024-09-09 10:31:55 1480

原创 小白的大模型入门课-第一讲

这个是大模型系列课程的第一节。接下来我带着大家一起拥抱新技术,分享的进展不会很快,大概一周一次,有空可以直播讲解或实操。为了照顾那些工程出身,甚至非技术同学,我这个系列会从小白开始,从基础概念入门逐步展开。声明:我不会研究基础大模型,而是会关注应用层,当然也会涉及预训练、知识库、多智能化跟模型最终效果息息相关的部分。

2024-09-07 15:44:13 942

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除