LLM常见面试题(1-10题)

1,常见的大模型应用有哪些?

文字:文心一言,通义千问,天工,豆包

图片:即梦,奇域,文心一格,通义万相

视频:即梦,可灵。

搜索:天工AI,Kimi,360智脑。

2,目前主流的开源模型体系有哪些?

transformer(谷歌提出)体系:如BERT和GPT

PyTorch Lightning:一个基于Pytorch的轻量级深度学习框架,用于快速原型设计和实验。

TensorFlow Model Garden:官方提供的一系列预训练模型和模型架构。

Hugging Face Transformers:一个流行的开源库,提供了大量预训练模型和工具,用于NLP任务。

3,prefix LM和casesal LM区别是什么?

①前缀语言模型:在输入序列前面添加一个可学习且任务相关的前缀,然后使用这个前缀和输入序列一起生成输出。 ----可以引导模型生成适应特定任务的输出。

②因果模型:也称自回归模型。根据之前生成的token,预测后续token。在生成文本时,模型只能根据已经生成的部分生成后续部分,不能访问未来的信息。

4,涌现能力是啥原因?

模型在训练过程中突然表现出新的、之前未曾预料到的能力。通常发生在大模型中,因为大模型有更好的表示能力和更高的参数,可以更好地捕捉数据中的模式和关联。

随着模型规模的增加,它们能够自动学习到更复杂、更抽象的概念和规律,从而展现出涌现能力。

5,目前大模型模型结构都有哪些?架构介绍?

transformer:基于自注意力机制的模型,包括编码器、解码器和编码器-解码器结构。

GPT系列:基于自注意力机制的生成式预训练模型,采用解码器结构。

BERT系列:基于自注意力机制转换式预训练模型,采用编码器结构。

T5系列:基于Transformer的编码器-解码器模型。

6,无监督学习是什么

在没有标签的数据集上训练,旨在发现数据中的内在结构和关系。

比如,聚类算法尝试将数据点分组,使得同一组内的数据点尽可能相似,不同组的数据点可能不同。

7,怎么理解前馈神经网络?

神经元之间的连接不会形成闭环,即:在前向传播过程中不会回溯。

基本组成单元:神经元。每个神经元都会对输入信号进行加权求和,然后通过激活函数产生输出(非线性)。决定神经元的输出是否应该被激活。

8,如何训练自己的大模型?

①选择合适的预训练目标和任务 :确定模型将学习哪些通用的语言知识,以及针对哪些特定任务进行优化。

②收集和准备数据:收集大量、多样化的数据,包括通用数据和特定领用的数据,选择清洗和预处理。

③选择模型架构:如Transformer,并确定模型的规模和层数。

④定义训练流程:设置训练参数。如学习率、批量大小、训练轮数等,并选择合适的优化器和损失函数。

⑤训练模型:使用准备好的数据和训练流程开始训练模型,监控训练过程中的性能和资源使用。

⑥评估和调优:训练过程中,定期评估模型的性能,并根据需要调整训练参数和模型架构。

⑦微调和优化:达到一定性能后,进行微调以适应特定的应用场景和任务目标。

9,训练中文大模型有啥经验?

考虑语言的特点,如词序、语法结构、多义性等,并设计相应的预训练任务。

考虑中文的特殊字符和标点,确保模型能够正确处理这些字符。

10,大模型LLM进行SFT如何对样本进行优化?

数据增强:通过对原始数据进行转换,如文本回译、添加噪声等,生成更多的训练样本。

样本选择:选择与特定任务最相关的样本进行训练,以提高训练效率和性能。

样本权重:根据样本的难易程度或重要性为样本分配不同的权重,以优化训练过程。

平衡采样:在训练过程中,确保每个类别或子任务都有足够的样本被训练到。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值