强化学习炒股：是“圣杯”还是“人工智障”？用 Stable-Baselines3 跑个 Demo

原创

于 2025-11-30 12:42:11 发布 · 803 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#python #金融

前言：自从 AlphaGo 横扫围棋界，量化圈就兴起了一股“强化学习热”。似乎只要把 K 线数据喂给神经网络，它就能自动进化成华尔街之狼。
作为一个在量化一线摸爬滚打多年的老兵，我得先泼盆冷水：99% 的强化学习交易 Demo，在实盘里连电费都赚不回来。
今天，我们不谈高深的数学公式，而是用最流行的库 Stable-Baselines3 手撸一个交易机器人，看看它到底是“圣杯”还是“人工智障”。

为什么大多数人都在瞎折腾？

你可能见过这样的场景：
一个刚入门的开发者，把过去 10 年的比特币收盘价丢进 LSTM 或 PPO 模型里，跑出一个“年化 500%”的回测曲线，然后兴冲冲地去实盘。
结果？三天归零。

传统量化策略（如双均线）逻辑清晰，坏也坏得明白。而强化学习（RL）像一个黑盒：

它可能学会了“在价格 10000 时买入”，而不是“在突破阻力位时买入”。
它可能学会了利用数据中的“未来函数”作弊。

但这不代表 RL 没用。在机构层面，RL 更多用于订单执行算法（Execution Algorithms）或投资组合优化，而不是直接预测涨跌。

核心原理：像训练狗一样训练机器人

强化学习的核心逻辑其实和驯兽一模一样。

我们把交易机器人看作一只“狗”（Agent），市场是“公园”（Environment）。

观察 (Observation)：狗看到现在的价格、成交量、持仓情况。
动作 (Action)：狗决定“买”、“卖”还是“趴着不动”。
奖励 (Reward)：做对了（赚钱），给块骨头；做错了（亏钱），打一顿。

经过几百万次的训练，这只狗（理论上）能学会如何在公园里通过一系列动作获得最多的骨头。

实战演示：用 Stable-Baselines3 搭建训练场

Talk is cheap. 我们用 Python 最成熟的 RL 库 Stable-Baselines3 和 Gymnasium 来搭建一个最简化的交易环境。

1. 环境准备

pip install gymnasium stable-baselines3 pandas numpy shimmy

2. 定义交易环境 (The Matrix)

这是最关键的一步。我们需要告诉机器：什么是市场？怎么算赢？

import gymnasium as gym
import numpy as np
from gymnasium import spaces
from stable_baselines3 import PPO

class SimpleTradingEnv(gym.Env):
    """
    一个极简的单资产交易环境
    """
    def __init__(self, price_data):
        super(SimpleTradingEnv, self).__init__()
        self.price_data = price_data
        self.current_step = 0
        
        # 动作空间：0=持有/观望, 1=买入, 2=卖出
        self.action_space = spaces.Discrete(3)