从chatgpt来说说AI大模型

最近几乎所有的热点都被chatgpt占据,相信大家都对chatgpt已经不陌生了,最近我也看了一些,总结了一些关于大模型的资料,有些不足或者建议,欢迎大家指正。

什么是AI大模型?

AI大模型就是Foundation Model(基础模型),指通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模型。(Foundation Model名词来源李飞飞等众学者的这篇论文On the Opportunities and Risks of Foundation Models)。

AI大模型是人工智能迈向通用智能的里程碑技术。深度学习作为新一代人工智能的标志性技术,完全依赖模型自动从数据中学习知识,在显著提升性能的同时,也面临着通用数据激增与专用数据匮乏的矛盾。AI大模型兼具“大规模”和“预训练”两种属性,面向实际任务建模前需在海量通用数据上进行预先训练,能大幅提升AI的泛化性、通用性、实用性。

大模型发展

AI大模型发展起源于自然语言处理领域。在2017年Transformer网络提出后,伴随着参数量的不断提升,它在自然语言处理领域慢慢成为基础性架构,并在2018年其参数量达到3亿规模,也就是我们所熟知的BERT。基于如此之大的参数量,研究者发现它能够同时出色地完成多种自然语言处理任务,这也就吸引了越来越多的人加入其中。

在大模型研究的早期阶段,仍然主要集中在自然语言处理领域,诞生了诸如上述BERT、GPT-3等一系列代表性模型,它们的参数量从起初的几亿,快速增长为数十亿乃至千亿规模。而随之带来的就是相应能力的提升,具备了从简单的文本问答、文本创作到符号式语言的推理能力;近两年,部分研究者提出了以其他模态(如视觉等)为基础的大模型研究,希望模型也可以看懂世间万物。在这个阶段,诞生了如ViT等包含数亿参数规模的视觉模型。 上述模型分别具备了读的能力和看的能力,研究者期望将这两类能力统一起来,具备如大脑体现的多模态感知能力,这一部分的代表性模型就是CLIP、DALL·E等模型。

主流大模型

(1)BERT:谷歌于2018年10月发布的BERT模型是最为典型的基础模型,它利用BooksCorpus和英文维基百科里纯文字的部分,无须标注数据,用设计的两个自监督任务来做训练,训练好的模型通过微调在11个下游任务上实现最佳性能。

(2)谷歌2021年发布的视觉迁移模型Big Transfer,BiT

(3)OpenAI在2020年5月发布的GPT-3则是一个自回归语言模型,具有1750亿参数,在互联网文本数据上训练得到的这一基础模型,可以使用提示的例子完成各式各样的任务,使用描述任务(如“把英文翻译成法语:”)加一个示例(如“sea otter => loutre de mer”),再给一个prompt提示(如“cheese =>”),GPT-3模型即可生成cheese对应的法文。这类模型正在成为主流的AI范式。

以GPT系列为例:

1)GPT-1是上亿规模的参数量,数据集使用了1万本书的BookCorpus,25亿单词量;

2)GPT-2参数量达到了15亿规模,其中数据来自于互联网,使用了800万在Reddit被链接过的网页数据,清洗后越40GB(WebText);

3)GPT-3参数规模首次突破百亿,数据集上将语料规模扩大到570GB的CC数据集(4千亿词)+WebText2(190亿词)+BookCorpus(670亿词)+维基百科(30亿词)。

(4)Google 去年提出了 FLAN,一个基于 finetune 的 GPT 模型。它的模型结构和 GPT 相似。但是不同于 GPT-3 的是,它基于 62 个数据集,每个数据集构造了 10 个 Prompt 模板,也就是总共拿到 620 个模板的数据之后再进行 finetune。

国外大模型一览表

上图来自链接:总结当下可用的大模型LLMs - 知乎

国内大模型发展情况

2021年4月,华为云联合循环智能发布盘古NLP超大规模预训练语言模型,参数规模达1000亿;联合北京大学发布盘古α超大规模预训练模型,参数规模达2000亿。 阿里达摩院发布270亿参数的中文预训练语言模型PLUG,联合清华大学发布参数规模达到1000亿的中文多模态预训练模型M6。

2021年6 月,北京智源人工智能研究院发布了超大规模智能模型“悟道 2.0”,参数达到 1.75 万亿,成为当时全球最大的预训练模型。

2021年7月,百度推出ERNIE 3.0 知识增强大模型,参数规模达到百亿。

2021年10月,浪潮发布约2500亿的超大规模预训练模型“源1.0”。 2021年12月,百度推出ERNIE 3.0 Titan模型,参数规模达2600亿。而达摩院的M6模型参数达到10万亿,将大模型参数直接提升了一个量级。

到2022年,大模型继续火热。最开始,大模型是集中在计算语言领域,但如今也已逐渐拓展到视觉、决策,应用甚至覆盖蛋白质预测、航天等等重大科学问题,谷歌、Meta、百度等等大厂都有相应的成果。

国内大模型一览表

图片来源:中国移动研究院发布的《我国人工智能大模型发展动态》

相关资料下载地址

大模型与传统模型比对

AI大模型传统的AI模型
1

AI大模型得益于其“大规模预训练﹢微调”的范式,可以很好地适应不同下游任务,展现出它强大的通用性

由于数据规模或是模型表达能力的约束,这些模型往往只能有针对性地支持一个或者一类任务,而无法支持其他任务
2AI大模型预先在海量通用数据上训练并具备多种基础能力,可结合多种垂直行业和业务场景需求进行模型微调和应用适配传统AI能力碎片化、作坊式开发
3AI大模型已成为上层应用的技术底座,能够有效支撑智能终端、系统、平台等产品应用落地传统AI应用过程中存在的壁垒多、部署难
4在共享参数的情况下,只需在不同下游实验中做出相应微调就能得到优越的表现传统AI模型存在难以泛化到其他任务上的局限性
5自监督学习方法,可以减少数据标注,并且模型参数规模越大,优势越明显,避免开发人员再进行大规模的训练,使用小样本就可以训练自己所需模型,极大降低开发使用成本。人工标注成本高、周期长、准确度不高
6有望进一步突破现有模型结构的精度局限

模型精度–传统模型

  从深度学习发展前10年的历程来看,模型精度提升,主要依赖网络在结构上的变革。 例如,从AlexNet到ResNet50,再到NAS搜索出来的EfficientNet,ImageNet Top-1 精度从58提升到了84。但是,随着神经网络结构设计技术,逐渐成熟并趋于收敛,想要通过优化神经网络结构从而打破精度局限非常困难。

模型精度–Bit模型精度

以谷歌2021年发布的视觉迁移模型Big Transfer,BiT为例。扩大数据规模也能带来精度提升,例如使用ILSVRC-2012(128 万张图片,1000 个类别)和JFT-300M(3亿张图片,18291个类别)两个数据集来训练ResNet50,精度分别是77%和79%。另外使用 JFT-300M训练ResNet152x4,精度可以上升到87.5%,相比ILSVRC-2012+ResNet50结构提升了10.5%。

(下图)通过模型参数来看大模型在参数规模变大时对精度的影响,彩色文字是对数据集的注释。

算力需求

使用单块英伟达V100GPU训练的理论时间来感受大模型对算力的需求,典型的大模型例如GPT BERT GPT-2等的训练时间如下。

例如,GPT-3的训练使用了上万块英伟达v100 GPU,总成本高达2760万美元,个人如果要训练出一个PaLM也要花费900至1700万美元。 虽然训练会使用更大规模的算力消耗,推理会少非常多,比如清华大学与智谱AI联合开源的双语大模型GLM-130B,通过快速推理方法,已经将模型压缩到可以在一台A100(40G*8)或V100(32G*8)服务器上进行单机推理。但是一台A100的8卡机也是要大几十万(A100 40G单卡7w左右,8张卡则56w,那么整机也需要60w左右了),这个成本,对很多AI应用来说,还是很高。

好消息则是算力在迭代,算力成本也在下降,NVIDIA的H系列显卡,比如H100,单从算力(fp32)相比以往T4(深度学习1.0时代主流显卡),达到7倍++,坏消息则是H100这样的强大算力显卡被限制出口国内。

在大模型时代,针对Transformer结构优化的加速卡、工具链也在被不断推出,算力厂商在抢占大模型计算高地的同时,提高算力和降低成本,让大模型落地通路可行。

国内应用场景

智源研究院针对2021年北京冬奥会,提出了“悟道”大模型用于冬奥手语播报数字人,提供智能化的数字人手语生成服务,方便听障人士也能收看赛事专题报道,提升他们的社会参与度和幸福感。这个项目还得到了北京市残疾人联合会和市残联聋人协会的大力支持。

华为盘古CV大模型。主要是针对无人机电力智能巡检这个场景,以国网重庆永川供电公司为例,无人机智能巡检开发主要面临两个挑战:一是如何对海量数据进行高效标注;二是缺陷种类多达上百种,需要数十个AI识别模型。

盘古CV大模型在数据标注方面,利用海量无标注电力数据进行预训练,结合少量标注样本进行微调,使得样本筛选效率提升约30倍,以永川供电每天采集5万张高清图片为例,可节省人工标注时间170人天。在模型通用性方面,可以做到一个模型适配上百种缺陷,替代原有20多个小模型,减少了模型维护成本,平均精度提升18.4%,开发成本降低90%。

当然也缺少不了最近双十一,双十一是淘宝系统服务最繁忙的一天,如何有效地应对成千上亿的用户咨询。

基于达摩院开发的M6大模型智能生成内容文案,方便智能客服进行上下文理解和问题回答生成。

另外大模型的多模态特征提取能力,也能进行商品属性标签补充、认知召回等下游任务。

大模型训练框架

目前部分深度学习框架,例如Pytorch和Tensorflow,没有办法满足超大规模模型训练的需求,于是微软基于Pytroch开发了DeepSpeed,腾讯基于Pytroch开发了派大星PatricStar,达摩院同基于Tensoflow开发的分布式框架Whale。像是华为昇腾的MindSpore、百度的PaddlePaddle,还有国内的追一科技OneFlow等厂商,对超大模型训练进行了深度的跟进与探索,基于原生的AI框架支持超大模型训练。

大模型主要头部厂商

最主要的竞争对手有基于英伟达的GPU+微软的DeepSpeed,Google的TPU+Tensorflow,当然还有华为昇腾Atlas800+MindSpore三大厂商能够实现全面的优化。至于其他厂商,大部分都是基于英伟达的GPU基础上进行一些创新和优化。

斯坦福大学大模型中心对全球 30 个主流大模型进行了全方位的评测

GLM-130B 是亚洲唯一入选的大模型。在与 OpenAI、Google Brain、微软、英伟达、Meta AI 的各大模型对比中,评测报告显示 GLM-130B 在准确性和公平性指标上与 GPT-3 175B (davinci) 接近或持平,鲁棒性、校准误差和无偏性优于 GPT-3 175B。

由清华技术成果转化的公司智谱 AI 开源了 GLM 系列模型的新成员——中英双语对话模型 ChatGLM-6B,支持在单张消费级显卡上进行推理使用。这是继此前开源 GLM-130B 千亿基座模型之后,智谱 AI 再次推出大模型方向的研究成果。

期望

对于AI大模型而言,我们不仅期望它的参数量巨大,大模型也应同时具备多种模态信息的高效理解能力、跨模态的感知能力以及跨差异化任务的迁移与执行能力等。

关于文章的内容放到了ppt里面,想要下载的朋友可以到我的资源里面下载,ppt做的比较粗糙,还请见谅。

一、大模型全套的学习路线

学习大型人工智能模型,如GPT-3、BERT或任何其他先进的神经网络模型,需要系统的方法和持续的努力。既然要系统的学习大模型,那么学习路线是必不可少的,下面的这份路线能帮助你快速梳理知识,形成自己的体系。

L1级别:AI大模型时代的华丽登场

L2级别:AI大模型API应用开发工程

L3级别:大模型应用架构进阶实践

L4级别:大模型微调与私有化部署

一般掌握到第四个级别,市场上大多数岗位都是可以胜任,但要还不是天花板,天花板级别要求更加严格,对于算法和实战是非常苛刻的。建议普通人掌握到L4级别即可。

以上的AI大模型学习路线,不知道为什么发出来就有点糊,高清版可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

<think>首先,用户的问题是:“请问AI 仿色技术原理及应用实现”,这翻译为“请问AI仿色技术原理及应用实现”。用户意图是继续了解或解决与AI仿色相关的问题,基于系统指令和之前的引用。 系统级指令: - 所有行内数学表达式必须使用$...$格式。 - 独立公式必须使用$$...$$格式并单独成段。 - LaTeX语法正确。 - 使用中文回答。 - 生成相关问题。 - 回答中引用的段落末尾自然地添加引用标识,例如[^1]。 用户可见层: - 回答结构清晰,帮助用户逐步解决问题。 - 尽量保证回答真实可靠。 参考站内引用: - [^1]: 像素蛋糕的AI追色技术,涉及颜色迁移和分割。 - [^2]: 关于网络切片和AI算力网络。 - [^3]: 图像识别技术的融合应用,如自动驾驶。 用户意图:基于之前的对话,用户似乎对AI仿色技术感兴趣,特别是像素蛋糕的技术。我需要围绕这个主题构建回答。 关键点: - AI仿色技术原理:涉及颜色迁移(color transfer)、分割(segmentation)和AI模型。 - 应用实现:在影楼修图等场景中的落地。 结构化回答: 1. **介绍AI仿色技术**:简要定义和背景。 2. **原理**:解释核心原理,包括颜色迁移、分割和AI模型。 3. **实现方法**:描述如何实现,可能包括算法或模型。 4. **应用场景**:讨论具体应用,如影楼修图。 5. **生成相关问题**:在末尾添加相关问题。 使用引用: - 在相关部分自然地添加引用标识,如[^1]。 数学表达式: - 如果有公式,使用LaTeX格式。例如,颜色迁移可能涉及一些数学操作,如颜色空间转换。 可能的数学元素: - 颜色迁移可能涉及统计或优化公式。例如,均值、方差等。 - 例如,经典的Reinhard颜色迁移算法:$I_{out} = \sigma_{target} \cdot \frac{I_{in} - \mu_{in}}{\sigma_{in}} + \mu_{target}$,其中$\mu$是均值,$\sigma$是标准差。 - 确保使用正确的LaTeX格式。 回答结构: - 开头:介绍主题。 - 主体:分步解释原理和实现。 - 结尾:总结并生成相关问题。 生成相关问题: - 在末尾添加“相关问题”部分,列出3-5个相关问题。 确保回答真实可靠: - 基于提供的引用和一般知识。引用[^1]提到AI追色技术基于人像分割+精细化分割和颜色迁移。 - 补充一些通用知识,但保持真实。 完整回答大纲: 1. **引言**:AI仿色技术是什么,及其在图像处理中的重要性。 2. **技术原理**: - 颜色迁移:将源图像的颜色转移到目标图像。 - 分割:使用AI模型进行人像分割,以精确定位区域。 - AI模型:可能使用深度学习模型如CNN或GAN。 3. **实现方法**: - 步骤:分割、颜色统计、迁移。 - 示例:像素蛋糕的实现。 4. **应用场景**:影楼修图、电影调色、游戏开发等。 5. **相关问题**:生成相关问题。 添加引用: - 在描述像素蛋糕技术时添加[^1]。 - 如果提到其他引用,自然添加。 最终输出: - 使用中文。 - 结构清晰。</think>### AI仿色技术原理及应用实现 AI仿色(也称为颜色迁移或颜色匹配)技术是一种基于人工智能的图像处理方法,旨在将源图像的颜色风格(如色调、饱和度、亮度)自动转移到目标图像上,同时保持目标图像的内容结构不变。这项技术在影视后期、摄影修图和游戏设计等领域有广泛应用,尤其在影楼修图场景中,如像素蛋糕所使用的AI追色技术,它结合了人像分割和精细化区域分割来实现精准颜色迁移[^1]。下面,我将从原理、实现方法和应用场景三个方面,逐步为你解释这一技术。 #### 1. **技术原理** AI仿色技术的核心原理基于颜色迁移和图像分割,并通过AI模型(如深度学习)进行优化。整个过程涉及以下关键步骤: - **颜色迁移基础**: 颜色迁移的目标是将源图像的统计颜色特征(如均值、方差)转移到目标图像上。这通常通过在特定颜色空间(如Lab或HSV)中进行操作来实现,因为这些空间能更好地分离亮度和颜色信息。经典的算法如Reinhard颜色迁移公式: $$ I_{\text{out}} = \sigma_{\text{target}} \cdot \frac{I_{\text{in}} - \mu_{\text{in}}}{\sigma_{\text{in}}} + \mu_{\text{target}} $$ 其中,$I_{\text{in}}$ 是输入图像,$I_{\text{out}}$ 是输出图像,$\mu_{\text{in}}$ 和 $\sigma_{\text{in}}$ 是输入图像的均值和标准差,$\mu_{\text{target}}$ 和 $\sigma_{\text{target}}$ 是目标图像(或参考风格)的统计特征。这个公式确保了颜色分布的一致性。 - **图像分割的作用**: 为了更精确地迁移颜色,AI技术引入了分割模块,例如使用卷积神经网络(CNN)或U-Net模型进行人像或物体分割。分割将图像划分为不同区域(如皮肤、头发、背景),允许对每个区域独立应用颜色迁移。这避免了全局迁移导致的颜色失真问题。例如,在影楼修图中,分割技术能针对人脸区域进行精细化处理,确保肤色自然[^1]。 - **AI模型的整合**: 现代AI仿色技术常结合深度学习模型,如生成对抗网络(GAN)或变分自编码器(VAE),来实现端到端的学习。这些模型通过训练数据集(如成对的源-目标图像)学习颜色映射关系,能处理复杂场景和非线性变换。例如,GAN可以生成更逼真的颜色过渡,减少人工干预。整体流程可表示为: **输入图像 → 分割模块(定位区域) → 颜色统计提取 → AI模型迁移 → 输出图像**。 这种结合分割和迁移的方法,显著提升了鲁棒性和效率[^1][^3]。 #### 2. **应用实现方法** AI仿色的实现通常分为数据准备、模型训练和部署三个阶段。以下以像素蛋糕的AI追色技术为例,明具体实现步骤: - **数据准备**: - 收集高质量图像数据集,包括源图像(待修改图像)和目标图像(参考风格图像)。数据集需覆盖多样场景,如人像、风景。 - 使用标注工具(如LabelMe)对图像进行分割标注,标记出关键区域(如人脸、服装)。 - 数据预处理:将图像转换到Lab颜色空间,并归一化处理,便于模型学习。 - **模型训练**: - **分割模型**:采用U-Net或Mask R-CNN等分割网络,训练目标是从图像中精确提取区域。损失函数常用交叉熵损失:$L_{\text{seg}} = -\sum y \log(\hat{y})$,其中$y$是真实标签,$\hat{y}$是预测概率。 - **迁移模型**:结合GAN或风格迁移网络(如AdaIN)。训练时,输入分割后的区域和参考风格,输出颜色迁移结果。优化目标是最小化内容损失和风格损失的加权和:$L_{\text{total}} = \alpha L_{\text{content}} + \beta L_{\text{style}}$。 - 训练环境:使用PyTorch或TensorFlow框架,在GPU集群上运行。训练完成后,模型需压缩以适配移动端或云端部署。 - **部署与应用**: - 在影楼修图场景中,系统首先运行分割模型识别用户上传图像的区域(如皮肤区域),然后应用颜色迁移模型将参考风格(如某明星照片的色调)转移到目标区域。 - 实现优化:为减少延迟,可使用网络切片技术(如引用[^2]所述),为AI任务分配专属带宽,确保实时处理。 - 示例代码(简化版,使用Python和OpenCV): ```python import cv2 import numpy as np def ai_color_transfer(source_img, target_img): # 转换到Lab颜色空间 source_lab = cv2.cvtColor(source_img, cv2.COLOR_BGR2Lab) target_lab = cv2.cvtColor(target_img, cv2.COLOR_BGR2Lab) # 计算均值和标准差 source_mean, source_std = np.mean(source_lab, axis=(0,1)), np.std(source_lab, axis=(0,1)) target_mean, target_std = np.mean(target_lab, axis=(0,1)), np.std(target_lab, axis=(0,1)) # 应用Reinhard迁移公式 output_lab = (source_lab - source_mean) * (target_std / source_std) + target_mean output_lab = np.clip(output_lab, 0, 255).astype(np.uint8) # 转换回BGR并返回 return cv2.cvtColor(output_lab, cv2.COLOR_Lab2BGR) # 示例使用 source = cv2.imread('source.jpg') # 待修改图像 target = cv2.imread('target.jpg') # 参考风格图像 result = ai_color_transfer(source, target) cv2.imwrite('output.jpg', result) ``` 这个代码实现了基础颜色迁移,但在实际应用中需集成分割模块和深度学习模型以提高精度。像素蛋糕的AI追色技术通过添加分割步骤,实现了更自然的肤色迁移[^1]。 #### 3. **应用场景** AI仿色技术已广泛应用于多个领域,得益于其高效性和自动化优势: - **影楼修图**:如像素蛋糕系统,自动将客户照片的颜色风格迁移到专业模板上,大幅提升修图效率(从小时级缩短到分钟级)[^1]。 - **影视与游戏**:在电影调色或游戏角色设计中,用于快速统一视觉风格。例如,将实景视频迁移到动漫风格。 - **跨领域融合**:结合自动驾驶或工业质检(如引用[^3]所述),用于实时图像处理。比如,在自动驾驶中,迁移不同光照条件下的道路图像颜色,提升识别鲁棒性。 - **新兴应用**:随着AI大模型发展,AI仿色可集成到云端服务中,用户通过手机APP一键应用滤镜,实现“按需供网,算力随取”的体验[^2]。 总之,AI仿色技术的核心是结合颜色统计、分割和深度学习模型,实现自动化颜色迁移。它在提升图像处理效率和质量方面效果显著,但实际部署需考虑算力优化和实时性要求。如果您有具体场景(如自定义数据集),我可以进一步提供实现建议。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值