时间还过得真是快,去年年底报名的时候非常的纠结,主要原因是想在AI方面有所提升,但是又觉得微调的学习门槛过高,线性代数这些玩意儿想想都头大,矩阵的算式看着就发晕,不过最后还是一咬牙,把用AI赚到的钱交了学AI的学费。
前两周学习理论,还好,可以盯着huggingface来学习,不清楚的概念直接上去查,也算是搞明白了为啥huggingface现在这么的火,它提供了一系列用于自然语言处理(NLP)、计算机视觉和音频处理的工具和库。它最著名的产品是开源的Transformers库,这是一个广泛使用的自然语言处理工具库,包含了大量预训练模型,如BERT、GPT-2等,用于各种NLP任务,如文本分类、生成文本、问答系统等。就是机器学习领域的“GitHub”。有很多数据集和各种开源模型,而且有很多现成的库比如说 Dataset库可以非常方便的管理各种数据集。
不过也遇到了很多的困难,huggingface在国内不能直接访问,如何下载数据集和相应的模型就成为了一个难题,另外如何通过conda来管理不同的python环境,这些都是以前没有接触过的场景问题,一句话实操8个小时,有7个小时是在解决科学上网的问题,系统环境的问题等等。
在不断深入的学习中也逐渐的认识到应用的AI的几个层面,利用prompts提升效率,通过langchain+rag来实现agent的能力,通过微调来实现垂直领域的知识强化,通过预训练来捏出一个大语言模型。以上几个层面,普通人最多也就能在微调领域试试水了,一块16GB的T4显卡,通过INT4级别的量化也可以微调一些7B左右的模型,在一些垂直领域使用,但这也只是从起步的成本说起,额外的成本比如说用于微调的数据集现在通用的方式通过GPT4进行整理,消耗的token也是不小的开支,如果想商用,实现高并发,还需要一些工程化的技术比如通过k8s落地也不是一两个人能搞定的,普通人想要自己尝试微调,最多也就是一个实验的层面在小范围内使用。预训练就不要想了,一个7B的模型想要进行训练没有128GB的GPU是跑不起来的,一台8卡A100的服务器是预训练的起步机型。
最大的收获就是学习完成后,深刻认识到大模型微调和预训练真是大公司才能烧钱玩起来的东西,到不说前期的投资,很多微调就是个黑盒,微调完成之前

本文讲述了作者报名学习AI时的困惑,重点介绍了HuggingFace和Transformers库在NLP中的作用,以及微调大模型过程中遇到的挑战,包括网络访问、数据管理、环境配置和成本问题。作者强调了微调和预训练的区别,以及这对大公司的重要性,同时也提到了个人学习的价值——深化理解模型原理和界限。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



