白话告诉你大模型到底是怎么工作的

2ffd21103a8a0a0369ed6174b1ea4893.png

前言

2022年底“大模型”在国内突然遍地开花,不管你身处什么行业,都或多或少听说或使用过大模型相关的工具,也听说过大模型训练是一件超级烧钱的事情。那你是否有想过大模型训练为什么会这么烧钱,或者说大模型到底大在了哪里呢?

防止劝退,阅读本文章你不用担心看不懂晦涩难懂的公式以及计算过程,本文仅作为一篇大模型科普文章,带你了解你使用的大模型背后的故事,文章最后会推荐一些帮助博主日常提效的大模型工具,希望通过本文能让你对大模型有新的认识和理解。

大模型的工作过程

dc00a8edebf13e9fecb32b70c04c2837.jpeg

从上图可以看出,树左侧Encoder-Only:表示仅做学习和理解内容的工作;树右侧Decoder-Only:表示做内容生成的工作。 大众目前使用的大模型工具也基本集中在树右侧,比如大名鼎鼎的chat-gpt系列模型。

大模型的训练构成可以拆解成:推理过程 + 训练过程,我们通过理解这两个过程来感受大模型到底是如何工作的。

推理过程

1. 词向量
  • 向量表示:每个单词被表示为一个高维向量(比如三维、四维甚至更高维度),这些向量通常通过训练模型从大量文本数据数据中学习而获得的。

  • 语义相似性:在向量空间中,语义相似的单词会被映射到相近的位置(类似于物以类聚人以群分的感觉)。例如,“king”和“queen”都有“国王”的意思,它两在向量空间中相对位置就比较近。

同义词的case:

king和queen都有“国王”的意思,big和biggest都表示大的意思。

同音异义词(一词多义)的case:

china:既可以表示为“中国”的意思,也可以理解成“瓷器”的意思;magazine:可以指代杂志或者是杂志社。

无论是同义词还是同音异义词在大模型中是如何区分的呢?那就是向量的概念,对于多义词的含义使用的向量比较相似,而对于同音异义词使用的向量则不太相似

2. 词向量模型
  • WOrd2Vec(2013年):由Google提出,包括CBOW(Continuous Bag Of Words)和Skip-Gram。前者通过预测上下文词来学习目标词的标识,后者通过目标词来预测上下文词。

  • GlocVe(2014年):由斯坦福大学提出,通过统计整个语料库中的词共现矩阵来学习词向量。

  • FastText(2016年):由Facebook提出,扩展了Word2Vec,考虑了词的子词(subword)信息,使得模型在处理未见过的单词或拼写错误时有更好的表现。

3. Transformer架构

0b8e77a825549b83061ab4b3165a16ee.pngtransformer框架通过修改词向量来存储每个词的隐藏含义(即上图中空色字体的内容),通过第一层transformer处理输出后的新向量被称为隐藏状态hidden state,然后在传递给下一层transformer,在经过transformer处理,解释出来了his和bank的真实语境含义。

对于Chat-GPT3大模型,transformer的中间层数达到了96层,有研究表名前基层的神经网络会专注于理解句子的语法,并解决上面所表示的歧义,后面的层重点致力于对整个文本段落的更高层次的理解。

对于GPT3模型,它使用了12288维的词向量,也就意味着每个词有12288个维度;所以一个单词通过输入到最后数据的输出就需要计算1179648次(有没有感觉计算量非常大); 同时GPT3需要理解上下文之间关联更多的信息,需要引入注意力头的概念来进行信息的表达,在每一层的transformer都会存在96个注意力头,所以在每次预测一个新词的时候,需要执行9126次计算。

由于模型是通过海量简单的向量运算,所以非常适合在GPU上进行训练,同时由于计算数据量级超级大,一次模型训练可能需要花上几十天甚至更多,算力和电力成本可想而知是非常巨大的。

训练过程

1. 早期的机器学习算法

早期的机器学习算法主要分为有监督和无监督学习两大类。

有监督学习:用于训练的样本数据提前被打上各种标签,让机器提前知道样本真正代表了什么,随着机器不断学习之后,投喂给机器一个未打标签的数据,从而让它得出这个数据对应的标签是什么。

无监督学习:提前并未给训练数据打上任何标签,而是让机器自动计算,通过不断的计算迭代后,最终相似的数据逐渐聚合在一起,不相似的数据则逐渐远离。

对于有监督学习,由于需要预先对大量数据人工打上标签,导致训练大模型这件事情就变得非常困难且成本非常高,以至于无法继续推进,那么无监督学习对于大模型来说可实施性相对就更强一些(当然对于GPT,在实际训练过程中,也会有部分人工达标的工作用于修正模型)。

2. 大模型的训练过程

通过尝试预测文本段落中的下一个单词来学习几乎任何的书面材料。对于一个新的模型,一开始预测的结果很差,因为对于一个新模型,它的每个权重参数最初状态都是从一个随机数字开始,随着模型接触到越来越的case,模型开始调整参数权重,从而实现GPT3的效果。

一个具体的case:城市地下网络管道非常多且错综复杂,为了让水流出到指定位置,当水流过错误的管道,就需要将对应管道的水龙头关闭,在整个水流经的管道上,通过反复的向前后向后检查流经路径,并调整对应的管道阀门,最终水流向了指定的目的地,这个反复调整各个部位的权重的过程,正是大模型训练的一个过程。

当然在整个训练过程中还有很多具体的概念,比如前向传播、后向传播、以及损失函数等,不会在本文展开,感兴趣的朋友可以自行通过GPT/百度来了解详细过程。

工具推荐

推荐一些博主日常使用的大模型工具,供大家参考

可灵大模型(视频&图片生成)

官网地址:https://kling.kuaishou.com/

APP:可灵AI192eb10f08280544fbb7da88c9eff83f.png

秘塔AI搜索(学术搜索)

官网地址:https://metaso.cn/

APP:秘塔AI搜索73412fe5a0e08eb6bef0142a69d4bc09.png

Kimi智能助手(百科搜索)

官网地址:https://kimi.moonshot.cn/

APP:Kimi只能助手99c3e5dc2cfd8e5788b7cc0c2f3a5e83.png

豆包(百科搜索、知识问答)

官网地址:https://www.doubao.com/chat/

APP:豆包b326c677a3d9011d657081f35ac5d824.png

通义灵码(代码续写)

官网地址:https://tongyi.aliyun.com/lingma/

bb91e15cdcd170f14f879e3982719356.png

总结

本文通过大白话的方式介绍了大模型的一个基础训练过程,以及浅显的展示了大模型究竟大到了哪里,从而理解大模型训练庞大的数据为什么那么贵,随着技术的快速发展,相信未来大模型一定会对我们的生活产生非常大的影响。

了解、学习、理解和应用新兴技术,不断提升我们的生产效率,从而让生活更美好。

<think>好的,用户之前让我介绍了数据分析的基本概念,现在他们进一步询问需要学习什么,并希望得到具体的学习路线。我需要确定他们的学习目标是什么,是转行、提升现有技能,还是出于兴趣?之前的回答提到了工具、步骤和应用场景,现在用户可能想要更详细的步骤,比如从基础到进阶的学习路径。 用户可能没有明确说明自己的背景,比如是否有编程或统计基础。所以,我应该建议一个适合零基础的学习路线,同时兼顾有基础的人可能需要的内容。需要涵盖技能树中的各个部分,如编程语言、统计学、数据清洗、可视化、机器学习等。 还要考虑资源推荐,用户可能希望有免费或中文的资源,方便学习。例如推荐Python、SQL的学习资料,Kaggle项目,以及实战案例。同时,需要强调业务思维的重要性,因为很多新手可能只关注技术而忽视实际应用。 另外,用户可能希望路线有明确的阶段划分,比如基础、进阶、实战,这样他们可以逐步跟进。需要给出每个阶段的具体学习内容和目标,以及时间预估,帮助他们制定计划。 最后,提醒他们学习过程中实践的重要性,避免只看不练。可能还需要鼓励他们参与社区或项目,以保持动力。总结来说,需要提供一个结构清晰、分阶段、涵盖必要技能和资源推荐的学习路线,帮助用户系统性地学习数据分析。</think>以下是针对**数据分析领域**的系统化学习路线,分为 **基础知识 → 核心技能 → 工具实战 → 业务应用** 四个阶段,涵盖必学内容、推荐资源及时间规划,适合零基础入门或转行参考: --- ### **一、基础知识阶段(1-2个月)** **目标**:掌握数据分析底层逻辑和基础工具。 1. **数学与统计基础** - **描述性统计**:均值、中位数、方差、标准差、分布(正态/偏态)。 - **概率基础**:条件概率、贝叶斯定理、常见分布(二项分布、泊松分布)。 - **核心概念**:假设检验(p值、置信区间)、相关性分析、回归分析。 - **学习资源**:可汗学院统计学课程(免费)、书籍《深入浅出统计学》。 2. **编程语言入门** - **Python**: - 基础语法(变量、循环、函数)。 - 数据分析三剑客:**Pandas**(数据处理)、**NumPy**(数值计算)、**Matplotlib/Seaborn**(可视化)。 - **SQL**: - 增删改查(SELECT、JOIN、GROUP BY)、窗口函数、性能优化。 - **推荐资源**: - 廖雪峰Python教程(免费)、《利用Python进行数据分析》。 - SQLZoo在线练习(免费)、《SQL必知必会》。 --- ### **二、核心技能阶段(2-3个月)** **目标**:掌握完整数据分析流程及进阶技术。 1. **数据清洗与预处理** - 处理缺失值(删除、填充)、异常值检测(IQR、Z-score)、数据归一化/标准化。 - 数据合并(merge、concat)、时间序列处理。 2. **数据分析方法** - **探索性分析(EDA)**:分布分析、交叉分析、相关性热力图。 - **统计建模**:线性回归、逻辑回归、聚类分析(K-Means)。 - **机器学习入门**:决策树、随机森林(Scikit-learn库)。 3. **数据可视化** - 工具:Tableau/Power BI(拖拽式)、Python的Plotly/Dash(交互式)。 - 设计原则:如何用折线图、柱状图、散点图清晰传达信息。 --- ### **三、工具实战阶段(1-2个月)** **目标**:通过真实项目巩固技能,建立作品集。 1. **实战项目推荐** - **Kaggle入门竞赛**:泰坦尼克号生存预测、房价预测。 - **自选数据集分析**: - 电商用户行为分析(分析复购率、流失原因)。 - 社交媒体情感分析(Python + 自然语言处理库NLTK)。 - **完整项目流程**: ```markdown 1. 明确分析目标(例如:抖音用户活跃度下降的原因是什么?) 2. 数据清洗 → 探索分析 → 建模 → 可视化 → 报告输出 ``` 2. **工具链整合** - **自动化脚本**:用Python脚本实现数据抓取、清洗、分析的流水线。 - **数据库实战**:从MySQL查询数据 → 导出到Python分析 → 结果存入新表。 --- ### **四、业务应用阶段(长期积累)** **目标**:将技术能力转化为业务价值。 1. **行业知识积累** - **电商**:GMV、转化率、漏斗分析、A/B测试。 - **金融**:风控模型、用户信用评分、反欺诈。 - **运营**:用户分层(RFM模型)、生命周期管理。 2. **软技能提升** - **沟通能力**:用白话向非技术人员解释“p值小于0.05”的意义。 - **问题拆解**:将模糊问题转化为可分析的具体指标(例如:“用户增长”拆解为新增、留存、召回)。 3. **持续学习方向** - **大数据工具**:PySpark、Hadoop(处理海量数据)。 - **高级分析**:时间序列预测(ARIMA、Prophet)、深度学习(TensorFlow)。 --- ### **五、学习资源推荐** | **类型** | **推荐内容** | |----------------|-----------------------------------------------------------------------------| | **免费课程** | Coursera《Data Science专项课程》(约翰霍普金斯大学)、B站“戴师兄数据分析” | | **书籍** | 《Python数据科学手册》《精益数据分析》《机器学习实战》 | | **社区/平台** | Kaggle(竞赛+数据集)、和鲸社区(中文项目)、掘金(技术文章) | --- ### **六、学习计划模板(6个月速成)** | **月份** | **重点内容** | **产出目标** | |----------|-------------------------------------------|---------------------------------------| | 第1-2月 | Python+SQL基础、统计学 | 能用Pandas完成数据清洗,写简单SQL查询 | | 第3-4月 | 机器学习模型、可视化工具 | 完成Kaggle入门项目,制作分析报告 | | 第5-6月 | 行业案例实战(如电商、金融) | 拥有3个完整项目作品,熟悉业务指标 | --- ### **关键提醒** 1. **避免陷入工具党**:不必追求学会所有工具,优先掌握Python+SQL+可视化。 2. **业务>技术**:分析结论必须能回答“这对公司有什么价值?” 3. **保持输出**:通过博客、GitHub记录学习过程,面试时直接展示代码和报告。 如果需要某个环节的**详细资料**或**项目代码模板**,可以告诉我具体方向! 🚀
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值