对js执行上下文的理解

执行上下文(Execution Context) 决定了代码在特定时间点如何执行

一、 执行上下文的主要三种类型

1. 全局执行上下文

当脚本开始执行时,首先会进入全局执行上下文。这通常意味着在浏览器环境中,是 window 对象,在node 环境中是 global 对象

2. 函数执行上下文

当一个函数被调用时,都会为这个函数创建一个执行上下文,这个上下文包含函数的参数、局部变量 、 this绑定

3. Eval 函数执行上下文

虽然在现代的js开发中很少出现 eval 的使用,但是 每次调用eval时也会创建一个新的执行上下文

二、每个执行上下文的重要组成部分

1. 变量对象

变量对象时存储当前执行上下文中所有变量、函数声明和函数参数的地法规。在 ES6 之前,这个对象对于不同的执行上下文有不同的名字(在全局上下文中时全局对象,在函数中是活动对象)。但是在 ES6 中统一称为词法环境

2. 作用域链

这是一个包含多个变量对象的链式结构,用于解析变量和函数的引用。确保了对当前执行上下文以及外部上下文中的变量和函数的访问

3. this值

这是一个特殊的对象,取决于函数的调用方式(通过对象调用、通过函数调用、作为构造函数调用等)

三、 js 代码执行顺序

  1. 创建全局执行上下文
  2. 确定全局执行上下文中this值(通常是 window 或 global)
  3. 创建全局变量对象(全局变量声明、全局函数声明)
  4. 初始化函数声明和变量声明(函数声明始终会先于变量声明被提升
  5. 执行代码
### DeepSeek R1 模型蒸馏教程与实现方法 #### 一、模型蒸馏概述 模型蒸馏是一种通过较大且复杂的教师模型指导较小的学生模型学习的技术,使得学生模型能够获得接近于教师模型的表现。对于DeepSeek R1而言,这一过程旨在使小型化后的模型继承大型基础模型的强大推理能力[^1]。 #### 二、准备阶段 在开始具体的蒸馏操作之前,需准备好两个版本的模型——作为“老师”的大规模预训练模型(如拥有671B参数的基础大模型),以及待优化的小规模目标模型(比如那些经过压缩处理后具有数亿至数十亿不等参数量级的小模型)。此外,还需构建好用于评估两者差异的数据集,并设定合理的损失函数来衡量二者输出之间的差距[^2]。 #### 三、具体实施步骤 为了简化说明,在此提供一段伪码形式的概念展示: ```python import torch from transformers import AutoModelForSequenceClassification, Trainer, TrainingArguments # 加载教师和学生的预训练模型 teacher_model = AutoModelForSequenceClassification.from_pretrained('path_to_large_teacher') student_model = AutoModelForSequenceClassification.from_pretrained('path_to_small_student') def distillation_loss(student_output, teacher_output, temperature=2.0): """计算软标签交叉熵""" soft_labels = F.softmax(teacher_output / temperature, dim=-1) student_probs = F.log_softmax(student_output / temperature, dim=-1) return F.kl_div(student_probs, soft_labels) training_args = TrainingArguments( output_dir='./results', num_train_epochs=3, per_device_train_batch_size=8, learning_rate=5e-5, ) trainer = Trainer( model=student_model, args=training_args, train_dataset=train_dataset, data_collator=data_collator, compute_metrics=compute_metrics, ) for epoch in range(training_args.num_train_epochs): # 获取当前epoch下的数据批次 batch_data = get_next_batch() with torch.no_grad(): # 使用教师模型预测得到硬标签及软标签分布 teacher_outputs = teacher_model(**batch_data).logits # 学生模型前向传播并获取其预测结果 student_outputs = trainer.model(**batch_data).logits # 计算基于KL散度的距离惩罚项 loss = distillation_loss(student_outputs, teacher_outputs) # 反向传播更新权重... ``` 上述码片段展示了如何利用PyTorch框架完成一次完整的迭周期内的知识迁移流程;实际应用时可根据需求调整超参设置、网络结构以及其他细节部分。 #### 四、注意事项 在整个过程中需要注意几个方面的问题: - **温度调节**:适当提高softmax层内部使用的temperature值有助于缓解过拟合现象; - **混合比例控制**:合理分配原始任务监督信号同来自教师模型的知识引导间的比重关系; - **硬件资源调配**:考虑到参与运算的对象往往具备相当可观的尺寸规格,因此建议优先选用GPU集群环境开展实验工作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值