【AI大模型实战】手把手教你从零拆解LLaMA4的MoE架构，构建可训练的专家语言模型，全程干货，建议收藏！！-优快云博客

前言

在本篇中，我们将为模型注入学习能力：你将看到优化器与损失函数的配置，训练循环的搭建，以及模型如何通过迭代提升预测准确率。最终，它将具备基本的语言生成能力——根据提示文本，自动续写英文内容。

这是从“架构构建”迈向“语言生成”的关键一步。如果你阅读至此，已经站在了构建语言模型系统的核心阶段。

一、模型主训练流程

（一）定义优化器（Optimizer）

在神经网络中，优化器的核心职责是：根据反向传播计算得到的梯度，自动更新模型中的可训练参数，从而不断提升模型的预测能力。在本文中，我们采用在Transformer中表现优秀的AdamW****优化器。

在正式构建优化器之前，我们需要收集所有参与训练的模型参数，也就是那些设置了requires_grad=True的权重张量。这些参数包括：

词嵌入层的权重；
各层注意力机制中的QKV权重与输出线性层；
RMSNorm的权重张量；
MoE路由器与专家网络中的参数，包括手动注册的nn.Parameter；
多层共享专家网络的各类线性投影层；
最终输出线性层的参数。

我们将这些参数整理成一个列表，并统一交由AdamW优化器进行管理与更新。

# 收集所有需要梯度更新的参数all_model_parameters = list(token_embedding_table.parameters())
# 添加 RMSNorm 权重all_model_parameters.extend(rmsnorm_weights_input)all_model_parameters.extend(rmsnorm_weights_post_attn)all_model_parameters.append(final_rmsnorm_weight)
# 添加注意力机制中的 QKV 和输出线性层权重for i in range(n_layers):    all_model_parameters.extend(list(mha_qkv_linears[i].parameters()))    all_model_parameters.extend(list(mha_output_linears[i].parameters()))
# 添加 MoE 路由器的线性层权重for i in range(n_layers):    all_model_parameters.extend(list(moe_routers[i].parameters()))
# 添加 MoE 专家网络的 gate-up 和 down 投影权重（这些是 nn.Parameter 类型）all_model_parameters.extend(moe_expert_gate_up_proj)all_model_parameters.extend(moe_expert_down_proj)
# 添加共享专家网络的线性层权重for i in range(n_layers):    all_model_parameters.extend(list(shared_expert_gate_proj[i].parameters()))    all_model_parameters.extend(list(shared_expert_up_proj[i].parameters()))    all_model_parameters.extend(list(shared_expert_down_proj[i].parameters()))
# 添加最终输出线性层的权重all_model_parameters.extend(list(output_linear_layer.parameters()))
# 统计参数数量num_param_groups = len(all_model_parameters)  # 参数张量总数total_params = sum(p.numel() for p in all_model_parameters if p.requires_grad)  # 可训练参数总数
# 定义 AdamW 优化器optimizer = optim.AdamW(all_model_parameters, lr=learning_rate)
# 打印优化器配置print("Optimizer Setup:")print(f"  Optimizer: {type(optimizer).__name__}")print(f"  Learning Rate: {learning_rate}")print(f"  Managing {num_param_groups} parameter groups/tensors.")print(f"  Total Trainable Parameters: {total_params:,}")

运行上述代码后，我们成功地将模型中所有参与训练的参数（共43个独立张量）交由AdamW优化器统一管理。这些张量涵盖了模型的核心结构，包括注意力模块、RMSNorm、MoE路由与专家网络等关键部分。

最终统计结果显示，模型的总可训练参数量约为224万个，这对于一个用于研究的小型语言模型来说，已经具备了完整的Transformer架构特征，足以支持在有限资源下开展调试与实验。

（二）定义损失函数（Loss Function）

在训练神经网络时，我们需要一个损失函数来衡量模型预测与真实目标之间的误差。我们的任务是从词表中选出正确的下一个token，本质上属于多分类问题，因此我们选用最常见的分类损失函数：交叉熵损失（Cross-Entropy Loss）。

交叉熵损失的输入包括两个部分：

模型输出的****logits：表示每个词在词表中被预测到的原始得分；
实际的目标token ID：也就是训练数据中提供的正确答案。

交叉熵函数会自动将logits转换为概率分布（通过softmax），然后计算预测概率与实际答案之间的差异，输出一个标量，表示当前模型的预测误差。

我们可以这样在代码中定义损失函数：

# 定义损失函数criterion = nn.CrossEntropyLoss()

我们初始化了PyTorch提供的nn.CrossEntropyLoss，这是专门用于多分类任务的标准损失函数对象。后续的训练过程中，每当模型输出一个batch的预测结果时，我们就使用criterion来计算损失值，并据此进行梯度反向传播和参数更新。

随着训练不断进行，通过最小化交叉熵损失，模型将逐步提升对下一个token的预测能力，从而更好地学习语言模式与上下文关系。

（三）构建训练循环

完成损失函数与优化器的定义后，我们正式进入模型训练阶段。

训练的核心流程可以概括为：反复将数据送入模型→计算损失→反向传播梯度→使用优化器更新参数。在这一阶段，之前构建的所有模块——包括词嵌入、注意力机制、MoE结构、损失函数与优化器——将协同完成一次完整的前向与反向传播。

整个训练过程在一个固定的epoch内重复进行。每轮训练的基本逻辑如下：

从数据集中取出一个batch；
将输入送入模型，执行前向传播，得到预测输出；
使用损失函数（如交叉熵）计算模型输出与目标标签之间的误差；
清空上一轮梯度，避免梯度累加，执行反向传播，根据当前损失计算梯度；
调用优化器更新模型权重；
记录或打印训练过程中的损失指标。

该循环过程会不断迭代，使模型在训练数据集上逐步拟合，提高下一个token的预测能力。

print(f"\n--- Starting Training Loop for {epochs} epochs ---")
losses = []
for epoch in range(epochs):    # 随机采样一个batch的训练样本    xb, yb = train_x[torch.randint(0, num_sequences_available, (batch_size,))].to(device), \             train_y[torch.randint(0, num_sequences_available, (batch_size,))].to(device)
    # 输入token转词嵌入    token_embed = token_embedding_table(xb)        # 生成RoPE编码频率    position_ids = torch.arange(xb.shape[1], device=device).unsqueeze(0)    freqs = torch.einsum('i,j->ij', position_ids[0].float(), inv_freq)  # [block_size, d_k//2]    freqs_cis = torch.polar(torch.ones_like(freqs), freqs)              # [block_size, d_k//2]    freqs_cis = freqs_cis.unsqueeze(0).unsqueeze(2)                     # [1, block_size, 1, d_k//2]
    x = token_embed    for i in range(n_layers):        # RMSNorm均方根归一化        x_norm = (x.float() * torch.rsqrt(x.float().pow(2).mean(-1, keepdim=True) + rms_norm_eps)) * rmsnorm_weights_input[i]
        # 多头注意力QKV线性映射        qkv = mha_qkv_linears[i](x_norm).view(xb.shape[0], xb.shape[1], n_heads, 3 * d_k).chunk(3, dim=-1)        q, k, v = qkv[0], qkv[1], qkv[2]
        # RoPE旋转位置编码        q_rope = q.float().reshape(xb.shape[0], xb.shape[1], n_heads, -1, 2)        k_rope = k.float().reshape(xb.shape[0], xb.shape[1], n_heads, -1, 2)        q = torch.view_as_real(torch.view_as_complex(q_rope) * freqs_cis.unsqueeze(2)).flatten(3)        k = torch.view_as_real(torch.view_as_complex(k_rope) * freqs_cis.unsqueeze(2)).flatten(3)                q = q.permute(0, 2, 1, 3)  # (B, H, T, D)        k = k.permute(0, 2, 1, 3)        v = v.permute(0, 2, 1, 3)                # 注意力分数与加权输出        attn_scores = (q @ k.transpose(-2, -1)) * (d_k ** -0.5)        attn_scores = attn_scores.masked_fill(causal_mask[:,:,:xb.shape[1],:xb.shape[1]] == 0, float('-inf'))        attention_weights = F.softmax(attn_scores, dim=-1)        attn_output = attention_weights @ v
        # 添加残差连接        x = x + mha_output_linears[i](attn_output.permute(0, 2, 1, 3).contiguous().view(xb.shape[0], xb.shape[1], d_model))
        # 第二个RMSNorm + MoE路由器        x_norm = (x.float() * torch.rsqrt(x.float().pow(2).mean(-1, keepdim=True) + rms_norm_eps)) * rmsnorm_weights_post_attn[i]        router_logits = moe_routers[i](x_norm)        routing_weights = torch.sigmoid(torch.topk(router_logits, num_experts_per_tok, dim=-1)[0])        selected_experts = torch.topk(router_logits, num_experts_per_tok, dim=-1)[1]
        # 整理专家输入        x_flat = x_norm.view(-1, d_model)        selected_experts_flat = selected_experts.view(-1)        routing_weights_flat = routing_weights.view(-1)        token_idx = torch.arange(xb.shape[0] * xb.shape[1], device=device).repeat_interleave(num_experts_per_tok)        expert_inputs = x_flat[token_idx]
        # 专家网络前向 + 激活        gate_up_states = torch.bmm(expert_inputs.unsqueeze(1), moe_expert_gate_up_proj[i][selected_experts_flat])        activated_states = activation_fn(gate_up_states.chunk(2, dim=-1)[0]) * gate_up_states.chunk(2, dim=-1)[1]        expert_outputs_weighted = torch.bmm(activated_states, moe_expert_down_proj[i][selected_experts_flat]).squeeze(1) * \                                  routing_weights_flat.unsqueeze(-1)
        # 聚合专家输出        combined_expert_outputs = torch.zeros_like(x_flat)        combined_expert_outputs.scatter_add_(0, token_idx.unsqueeze(-1).expand(-1, d_model), expert_outputs_weighted)
        # 添加共享专家模块输出        shared_output = shared_expert_down_proj[i](            activation_fn(shared_expert_gate_proj[i](x_norm)) * shared_expert_up_proj[i](x_norm))
        # 添加残差连接        x = x + combined_expert_outputs.view(xb.shape[0], xb.shape[1], d_model) + shared_output
    # 输出层与最终 RMSNorm    logits = output_linear_layer((x.float() * torch.rsqrt(x.float().pow(2).mean(-1, keepdim=True) + rms_norm_eps)) * final_rmsnorm_weight)
    # 计算损失    loss = criterion(logits.view(-1, logits.shape[-1]), yb.view(-1))
    # 反向传播与优化器更新    optimizer.zero_grad()    loss.backward()    optimizer.step()
    # 记录损失    losses.append(loss.item())    if epoch % eval_interval == 0 or epoch == epochs - 1:        print(f"  Epoch {epoch+1}/{epochs}, Loss: {loss.item():.4f}")
print("--- Training Loop Completed ---")
# 可视化损失曲线try:    import matplotlib.pyplot as plt    plt.plot(losses)    plt.title("Training Loss Over Epochs")    plt.xlabel("Epoch")    plt.ylabel("Loss")    plt.show()except ImportError:    print("Matplotlib not found, skipping loss plot.")

训练开始后，终端会定期打印当前轮次的损失：

--- Starting Training Loop for 3000 epochs ---Epoch 1/3000, Loss: 3.6960Epoch 301/3000, Loss: 0.0820Epoch 601/3000, Loss: 0.0750Epoch 901/3000, Loss: 0.0533Epoch 1201/3000, Loss: 0.0612Epoch 1501/3000, Loss: 0.0580Epoch 1801/3000, Loss: 0.0576Epoch 2101/3000, Loss: 0.0532Epoch 2401/3000, Loss: 0.0610Epoch 2701/3000, Loss: 0.0612Epoch 3000/3000, Loss: 0.0547--- Training Completed ---

在训练的初期，模型的损失值通常较高，模型尚未掌握数据中的语言模式。随着训练的推进，损失迅速下降，并最终在0.05～0.07区间内稳定下来，这说明模型正在逐步****学习字符间的语言规律，对下一个字符的预测能力不断增强。

整体来看，本实验中的多个关键模块——如MoE路由机制、RMSNorm归一化层、RoPE相对位置编码等，协同效果良好，训练过程稳定，模型表现出良好的收敛性与可训练性。

（四）保存模型状态

经过较长时间的训练后，我们需要将模型参数保存到本地，以便后续加载、评估或继续训练，从而避免重复训练浪费资源。

保存模型的代码如下：

import osimport torch
# 创建保存目录（如果不存在）save_dir = 'models'os.makedirs(save_dir, exist_ok=True)save_path = os.path.join(save_dir, 'llama4_moe_model.pt')
# 手动收集所有模型信息到一个字典model_state = {    # 配置参数    'config': {        'vocab_size': vocab_size,        'd_model': d_model,        'n_layers': n_layers,        'n_heads': n_heads,        'block_size': block_size,        'rms_norm_eps': rms_norm_eps,        'rope_theta': rope_theta,        'num_local_experts': num_local_experts,        'num_experts_per_tok': num_experts_per_tok,        'intermediate_size_expert': intermediate_size_expert,        'intermediate_size_shared': intermediate_size_shared    },    # 分词器映射    'tokenizer': {        'char_to_int': char_to_int,        'int_to_char': int_to_char    },    # 模型权重（nn.Module 的 state_dict，nn.Parameter 的张量）    'token_embedding_table': token_embedding_table.state_dict(),    'rmsnorm_weights_input': rmsnorm_weights_input,  # 参数列表    'rmsnorm_weights_post_attn': rmsnorm_weights_post_attn,    'final_rmsnorm_weight': final_rmsnorm_weight,    'mha_qkv_linears': [l.state_dict() for l in mha_qkv_linears],    'mha_output_linears': [l.state_dict() for l in mha_output_linears],    'moe_routers': [r.state_dict() for r in moe_routers],    'moe_expert_gate_up_proj': moe_expert_gate_up_proj,  # 参数列表    'moe_expert_down_proj': moe_expert_down_proj,    'shared_expert_gate_proj': [l.state_dict() for l in shared_expert_gate_proj],    'shared_expert_up_proj': [l.state_dict() for l in shared_expert_up_proj],    'shared_expert_down_proj': [l.state_dict() for l in shared_expert_down_proj],    'output_linear_layer': output_linear_layer.state_dict(),    # 注意：RoPE 的 inv_freq 不保存，因为它可以从配置中推导}
# 保存字典为文件torch.save(model_state, save_path)
print(f"Model state saved successfully to '{save_path}'")

通过这种方式，我们可以在任何时候加载模型进行推理、微调或恢复中断的训练，极大提高了训练效率和模型可复用性。

二、文本生成

模型已经训练完成，现在是时候让它展现语言能力，写点东西了！

（一）生成流程概览

我们将提供一段短文本作为种子提示（seed text），让模型基于这段内容生成后续字符，完成一个简短的文本续写任务。

文本生成的核心流程如下：

准备提示文本：将起始字符串（如"Alice"）转换为对应的token ID；
设置生成长度：定义希望模型生成多少个字符；
设置评估模式：将各组件设置为eval模式，关闭dropout等训练机制；
关闭梯度追踪：使用torch.no_grad()，避免记录计算图，提高生成速度。

print("\n--- Step 7: Text Generation ---")
# --- 生成参数配置 ---seed_chars = "Alice "  # 起始提示文本num_tokens_to_generate = 200  # 要生成的新字符数print(f"Seed text: '{seed_chars}'")print(f"Generating {num_tokens_to_generate} new tokens...")
# --- 准备初始上下文 ---# 将提示字符转换为token IDseed_ids = [char_to_int[ch] for ch in seed_chars if ch in char_to_int]# 转换为张量，并添加batch维度generated_sequence = torch.tensor([seed_ids], dtype=torch.long, device=device)print(f"Initial context shape: {generated_sequence.shape}")
# --- 设置模型组件为评估模式 ---# 虽然我们模型中未使用Dropout，仍建议设置eval模式，保持输出一致性def set_model_eval():    token_embedding_table.eval()    output_linear_layer.eval()    for i in range(n_layers):        mha_qkv_linears[i].eval()        mha_output_linears[i].eval()        moe_routers[i].eval()        shared_expert_gate_proj[i].eval()        shared_expert_up_proj[i].eval()        shared_expert_down_proj[i].eval()
set_model_eval()print("Model components set to evaluation mode (where applicable).")

（二）逐Token生成过程

接下来，我们正式开始文本生成。

我们采用逐Token生成的方式：每次根据已有上下文，预测下一个字符，然后将其添加到生成序列中，反复进行直到达到指定长度。

每轮生成的基本逻辑如下：

截取上下文
我们从当前序列中取出最近的block_size个token，作为模型可接受的最大上下文长度输入。
前向传播
将这些token输入模型，得到输出logits（每个token在词表上的预测得分）；
softmax转概率分布
对logits最后一个位置应用softmax，获得词表中每个token的预测概率；
采样下一个token
根据概率分布，从词表中采样（sampling）一个 token；
追加到生成序列
将新生成的token添加到已有序列中，进入下一轮生成。

重复上述过程，直到生成出预设数量的 token 为止。

模型组件调用说明：

嵌入层→RoPE位置编码→多层Attention+MoE→输出线性层→softmax→采样下一个token。

为确保生成过程稳定高效，我们使用使用torch.no_grad()禁用梯度计算，提高生成速度。

print("Starting generation loop...")
with torch.no_grad():    for _ in range(num_tokens_to_generate):        # 获取当前上下文（限制block_size长度）        current_context = generated_sequence[:, -block_size:]        B_gen, T_gen = current_context.shape
        # 嵌入与 RoPE 编码        token_embed_gen = token_embedding_table(current_context)        position_ids_gen = torch.arange(T_gen, device=device).unsqueeze(0)        freqs = torch.einsum('i,j->ij', position_ids_gen[0].float(), inv_freq)        freqs_cis = torch.polar(torch.ones_like(freqs), freqs)        freqs_cis = freqs_cis.unsqueeze(0).unsqueeze(2)                x_gen = token_embed_gen
        for i in range(n_layers):            # RMSNorm + 多头注意力            x_norm_gen = (x_gen.float() * torch.rsqrt(x_gen.float().pow(2).mean(-1, keepdim=True) + rms_norm_eps)) * rmsnorm_weights_input[i]            qkv_gen = mha_qkv_linears[i](x_norm_gen).view(B_gen, T_gen, n_heads, 3 * d_k).chunk(3, dim=-1)            q_rotated_gen = torch.view_as_real(torch.view_as_complex(qkv_gen[0].reshape(B_gen, T_gen, n_heads, -1, 2)) * freqs_gen.unsqueeze(2))            k_rotated_gen = torch.view_as_real(torch.view_as_complex(qkv_gen[1].reshape(B_gen, T_gen, n_heads, -1, 2)) * freqs_gen.unsqueeze(2))
            # 注意力输出            v_gen = qkv_gen[2].permute(0, 2, 1, 3)  # 不进行RoPE旋转            attn_scores = (q_rotated_gen.permute(0, 2, 1, 3) @ k_rotated_gen.permute(0, 2, 1, 3).transpose(-2, -1)) * (d_k ** -0.5)            attn_weights = F.softmax(attn_scores, dim=-1)            attn_output_gen = attn_weights @ v_gen
            x_gen = x_gen + mha_output_linears[i](attn_output_gen)
            # MoE 模块            x_norm_gen = (x_gen.float() * torch.rsqrt(x_gen.float().pow(2).mean(-1, keepdim=True) + rms_norm_eps)) * rmsnorm_weights_post_attn[i]            router_logits_gen = moe_routers[i](x_norm_gen)            topk_weights_gen = torch.sigmoid(torch.topk(router_logits_gen, num_experts_per_tok, dim=-1)[0])            topk_indices_gen = torch.topk(router_logits_gen, num_experts_per_tok, dim=-1)[1]
            moe_input = x_norm_gen.view(-1, d_model)            selected_experts = moe_expert_gate_up_proj[i][topk_indices_gen]            gate_up = torch.bmm(moe_input.unsqueeze(1), selected_experts).squeeze(1)            activated = activation_fn(gate_up.chunk(2, dim=-1)[0]) * gate_up.chunk(2, dim=-1)[1]            moe_output = torch.bmm(activated.unsqueeze(1), moe_expert_down_proj[i][topk_indices_gen]).squeeze(1) * topk_weights_gen.view(-1, 1)
            # 残差 + MoE + 共享专家            x_gen = x_gen + moe_output.view(B_gen, T_gen, d_model) + \                    shared_expert_down_proj[i](                        activation_fn(shared_expert_gate_proj[i](x_norm_gen)) * shared_expert_up_proj[i](x_norm_gen))
        # 输出层        logits_gen = output_linear_layer(            (x_gen.float() * torch.rsqrt(x_gen.float().pow(2).mean(-1, keepdim=True) + rms_norm_eps)) * final_rmsnorm_weight        )
        # softmax 采样下一个 token        next_token = torch.multinomial(F.softmax(logits_gen[:, -1, :], dim=-1), num_samples=1)
        # 拼接到生成序列中        generated_sequence = torch.cat((generated_sequence, next_token), dim=1)
print("...Generation loop finished.")

文本生成过程将以你设定的步数（例如200次）为循环次数，每次迭代，模型会预测并生成一个新字符，逐步扩展输出文本。

（三）解码生成结果

经过前面的逐步推理，我们得到一个名为generated_sequence的张量，它包含：

种子文本的token ID（如"Alice "对应的6个ID）；
模型生成的200个新token ID。

为了获得最终的可读文本，我们需要将这些 ID 还原成对应的字符。我们使用训练前构建好的int_to_char映射表，将每一个token ID映射回对应的字符，然后将所有字符拼接成一个完整的字符串，展示模型的最终创作。

# 获取生成序列中的第一个（也是唯一一个）样本final_generated_ids = generated_sequence[0].tolist()
# 将 token ID 序列解码为字符串decoded_text = ''.join([int_to_char.get(id_val, '[UNK]') for id_val in final_generated_ids])
print("\n--- Final Generated Text ---")print(decoded_text)

从最终的生成结果来看，模型的表现非常令人满意。

Alice was beginning to get very tired of sitting by her sister on thebank, and of having nothing to do: once or twice she had peeped into thebook her sister was reading, but it had no pictures or conversa

模型自然地生成了完整的英文句子结构，不仅延续了原始文本的风格与词汇，还成功生成了词语、短语，合理使用了标点符号，展现出良好的句式结构。尽管我们使用的是一个相对较小的模型，引入****MoE机制，依然能够有效学习训练数据中的语言模式，具备基本的文本生成能力。

由于训练语料规模有限，且内容存在一定重复性，模型还不具备创造性生成的能力，难以做到“天马行空”式的自由创作。但这在预期之内——我们的目标是搭建和验证一个可运行的字符级语言模型生成框架，而非训练一个高质量的通用生成模型。

四、总结与未来方向

在本项目中，我们完整实现了一个从零搭建到可用的LLaMA4风格字符级语言模型，覆盖了模型设计、训练流程与文本生成的全链路。

首先，在架构搭建阶段，基于Transformer核心结构，结合RMSNorm、RoPE相对位置编码与Mixture of Experts（MoE）机制，构建了多路专家路由和层内并行的高效网络架构，提升了模型表达力与计算弹性。

接着，在数据准备阶段，采用字符级分词策略，通过滑动窗口方式生成训练样本，实现了适合自回归任务的输入与目标配对格式。

随后，在模型初始化阶段，系统搭建了词嵌入、多头注意力、MoE专家网络及共享专家模块，完成权重张量的初始化，为训练做好充分准备。

进入训练循环阶段，实现了前向传播、RMSNorm归一化、多头注意力计算、专家激活与聚合，以及损失计算、反向传播和参数更新，确保模型有效学习语言规律。

最后，在文本生成阶段，模型切换评估模式，采用自回归采样方法，基于上下文连续预测新字符，实现了连贯合理的文本自动续写。

通过上述清晰的流程，我们复现了带有MoE 结构的Transformer训练与推理过程，也为后续模型优化与任务扩展奠定了坚实基础。

最后

为什么要学AI大模型

当下，⼈⼯智能市场迎来了爆发期，并逐渐进⼊以⼈⼯通⽤智能（AGI）为主导的新时代。企业纷纷官宣“ AI+ ”战略，为新兴技术⼈才创造丰富的就业机会，⼈才缺⼝将达 400 万！

DeepSeek问世以来，生成式AI和大模型技术爆发式增长，让很多岗位重新成了炙手可热的新星，岗位薪资远超很多后端岗位，在程序员中稳居前列。

在这里插入图片描述

与此同时AI与各行各业深度融合，飞速发展，成为炙手可热的新风口，企业非常需要了解AI、懂AI、会用AI的员工，纷纷开出高薪招聘AI大模型相关岗位。
在这里插入图片描述
最近很多程序员朋友都已经学习或者准备学习 AI 大模型，后台也经常会有小伙伴咨询学习路线和学习资料，我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料，这些学习资料不仅深入浅出，而且非常实用，让大家系统而高效地掌握AI大模型的各个知识点。