python centos安装

本文档介绍了在CentOS系统中如何安装Python3.9的详细过程,包括依赖包的安装、Python源码下载、编译配置及安装验证。遵循这些步骤,您可以顺利地将Python3.9集成到您的开发环境中。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第一步:安装扩展依赖包:

yum install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gcc make

yum -y install epel-release

yum install python-pip

第二步:官方查看并下载对应稳定版本

下载路径扩展:https://www.python.org/downloads/source/

wget https://www.python.org/ftp/python/3.9.4/Python-3.9.4.tgz

 

tar -zxvf Python-3.9.4.tgz

cd Python-3.9.4

./configure prefix=/usr/local/python3  --enable-optimizations

make && make install

#添加python3的软链接   注意centos本身自带python,软连接名称可以改为python3    ,直接改为python可能会冲突
ln -s /usr/local/python3/bin/python3.6 /usr/bin/python3
 
#测试是否安装成功了
python -V

### PPODPOGRPO 算法的区别与联系 #### Proximal Policy Optimization (PPO) Proximal Policy Optimization 是一种强化学习方法,旨在通过引入信任区域来稳定策略更新过程。该算法利用剪切函数限制新旧策略之间的差异,从而防止参数更新过大导致性能下降。PPO 结合了 TRPO 的稳定性以及简单易实现的特点,在实践中表现出良好的收敛速度和鲁棒性[^1]。 ```python def ppo_update(policy_net, old_policy_net, optimizer, states, actions, rewards): advantages = compute_advantages(states, rewards) for _ in range(update_epochs): new_log_probs = policy_net.log_prob(actions) old_log_probs = old_policy_net.log_prob(actions).detach() ratio = torch.exp(new_log_probs - old_log_probs) surr1 = ratio * advantages surr2 = torch.clamp(ratio, 1.0 - clip_param, 1.0 + clip_param) * advantages loss = -torch.min(surr1, surr2).mean() optimizer.zero_grad() loss.backward() optimizer.step() ``` #### Direct Preference Optimization (DPO) Direct Preference Optimization 则是从人类反馈中直接优化模型的行为分布,而不需要显式的奖励信号。这种方法能够更高效地利用少量高质量的人类评价数据,并且可以避免传统基于奖励塑造的方法所带来的偏差问题。DPO 使用对比损失函数训练模型以最大化所选行为序列相对于未选行为的概率比值。 ```python def dpo_loss(selected_seq_logits, unselected_seq_logits): logits_diff = selected_seq_logits - unselected_seq_logits losses = F.softplus(-logits_diff) return losses.mean() for epoch in range(num_epochs): for batch in data_loader: selected_seq_logits, unselected_seq_logits = model(batch) loss = dpo_loss(selected_seq_logits, unselected_seq_logits) optimizer.zero_grad() loss.backward() optimizer.step() ``` #### Gradient Ratio Policy Optimization (GRPO) Gradient Ratio Policy Optimization 提出了调整正负梯度系数的概念,实验结果显示这能显著提升在线环境下的表现。特别是当采用细粒度步长感知型梯度比率时(即 GRPO+PS),其效果要好于仅考虑整体比例的情况(如 GRPO+OS)。这种机制允许更加灵活地控制不同阶段的学习速率变化趋势,有助于提高最终决策质量[^2]。 ```python class GRPOTrainer: def __init__(self, ...): self.positive_coefficient = ... self.negative_coefficient = ... def update(self, positive_gradients, negative_gradients): adjusted_positive_grads = positive_gradients * self.positive_coefficient adjusted_negative_grads = negative_gradients * self.negative_coefficient final_gradients = adjusted_positive_grads - adjusted_negative_grads apply_gradients(final_gradients) ``` 综上所述,虽然三种算法都属于强化学习领域内的改进方案,但各自侧重点有所不同:PPO 关注如何平稳有效地完成单次迭代;DPO 注重从有限数量的偏好样本里提取有用信息来进行指导;GRPO 则探索了动态调节梯度权重对于加速收敛的作用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值