Leetcode 376摆动序列(Java)

题目:

如果连续数字之间的差严格地在正数和负数之间交替,则数字序列称为摆动序列。第一个差(如果存在的话)可能是正数或负数。少于两个元素的序列也是摆动序列。

例如, [1,7,4,9,2,5] 是一个摆动序列,因为差值 (6,-3,5,-7,3) 是正负交替出现的。相反, [1,4,7,2,5] 和 [1,7,4,5,5] 不是摆动序列,第一个序列是因为它的前两个差值都是正数,第二个序列是因为它的最后一个差值为零。

给定一个整数序列,返回作为摆动序列的最长子序列的长度。 通过从原始序列中删除一些(也可以不删除)元素来获得子序列,剩下的元素保持其原始顺序。

示例 1:

输入: [1,7,4,9,2,5]
输出: 6
解释: 整个序列均为摆动序列。
示例 2:

输入: [1,17,5,10,13,15,10,5,16,8]
输出: 7
解释: 这个序列包含几个长度为 7 摆动序列,其中一个可为[1,17,10,13,10,16,8]。
示例 3:

输入: [1,2,3,4,5,6,7,8,9]
输出: 2

思路:

由于给定的数列中的数据是可以丢掉来求最大子序列的所以在求得时候,和以前求最大子序列得方式不一样,总的来说,使用的是贪心算法,且配合一个switch的状态机的方式来计算结果。

代码实现:

class Solution {
public int wiggleMaxLength(int[] nums) {
    if(nums.length < 2){
        return nums.length;
    }
    final int BEGAN = 0;
    final int UP = 1;
    final int DOWN = 2;
    int stat = BEGAN;
    int res = 1;
    for (int i = 1; i < nums.length; i++) {
        switch (stat) {
            case BEGAN:{
                //如果后者比前面的小就要将下一轮放置在UP上面,因为下一轮需要判断的是上升的情况
                if (nums[i - 1] < nums[i]) {
                    stat = UP;
                    res ++;      
                    break;                 
                } else if(nums[i - 1] > nums[i]) {
                    stat = DOWN;
                    res ++;
                    break;
                }else{
                    break;
                }
            }
            case UP:{
                if (nums[i - 1] > nums[i]) {
                    stat = DOWN;
                    res ++;
                }
                //如果下面的还是比上个up,则直接跳出,轮到下一个,且状态不变
                break;

            }
            case DOWN:{
                if (nums[i - 1] < nums[i]) {
                    stat = UP;
                    res ++;
                }
                //如果下面的还是比上个up,则直接跳出,轮到下一个,且状态不变
                break;
            }
           
        }
        
    }
    return res;
    
}

}

### 大模型对齐微调DPO方法详解 #### DPO简介 直接偏好优化(Direct Preference Optimization, DPO)是一种用于改进大型语言模型行为的技术,该技术通过结合奖励模型训练和强化学习来提升训练效率与稳定性[^1]。 #### 实现机制 DPO的核心在于它能够依据人类反馈调整模型输出的概率分布。具体来说,当给定一对候选响应时,DPO试图使更受偏好的那个选项具有更高的生成概率。这种方法不仅简化了传统强化学习所需的复杂环境设置,而且显著增强了模型对于多样化指令的理解能力和执行精度[^2]。 #### PAI平台上的实践指南 为了便于开发者实施这一先进理念,在PAI-QuickStart框架下提供了详尽的操作手册。这份文档覆盖了从环境配置直至完成整个微调流程所需的一切细节,包括但不限于数据准备、参数设定以及性能评估等方面的内容。尤其值得注意的是,针对阿里云最新发布的开源LLM——Qwen2系列,文中给出了具体的实例说明,使得即使是初次接触此类工作的用户也能顺利上手。 ```python from transformers import AutoModelForCausalLM, Trainer, TrainingArguments model_name_or_path = "qwen-model-name" tokenizer_name = model_name_or_path training_args = TrainingArguments( output_dir="./results", per_device_train_batch_size=8, num_train_epochs=3, ) trainer = Trainer( model_init=lambda: AutoModelForCausalLM.from_pretrained(model_name_or_path), args=training_args, train_dataset=train_dataset, ) # 假设已经定义好了train_dataset trainer.train() ``` 这段代码片段展示了如何使用Hugging Face库加载预训练模型并对其进行微调的过程。虽然这里展示的例子并不完全对应于DPO的具体实现方式,但它提供了一个基础模板供进一步定制化开发之用[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值