DRL(六)——高级策略梯度

本文深入探讨了强化学习中PolicyGradient的概念,解析其数学基础,包括horizon的定义与计算,及如何利用泰勒级数和拉格朗日进行复杂的推导过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这一讲主要在讲policy gradient,

注意,教授经常提到的horizon,就是11−γ1\over1-\gamma1γ1 , 就是∑tγt  (t starts from 0)\sum_t\gamma^t~~(t~starts~from~0)tγt  (t starts from 0),这个求和的结果是11−γ1\over1-\gamma1γ1 。(我还不是很明白这个是在干嘛……)

说句实话好了,这一讲整个我就处于懵逼状态了,什么玩意啊,一直在推导推导,我的个天,怎么这里也有泰勒级数还有拉格朗日,简直是所有的噩梦全都袭来了啊。

最后的review保存一下好了
在这里插入图片描述

``` {———————— 智能选股系统 V8.3 OPT ————————} // 神经微分优化 PARAM_OPT := NEURAL_DIFF_EVO( EPOCH=3000, POP=2000, MUT_RATE=ADAPT_MUT(0.15,0.003), CROSS=TOP_CROSS(0.7), FITNESS=0.7*SHARPE + 0.3*CALMAR, CONSTRAIN=[MAX_CHG<0.2, FEAT_IMP>0.05]); // 3D特征引擎 ALPHA_FACTOR := DEEP_FEAT_FUSE( T_STREAM=TEMP_CONV( [NEURAL_VOL(5,0.7), DEEP_ORDER(10,0.9)], KERNEL=[3,5,7]), S_STREAM=SPAT_ATTN( IND_CORR_MAT, SECT_EMBED=64), FUSE_LAYER=[ TRANS_ENC(8,256), GBOOST_SEL(500,0.01)]); // 高频资金流 NORTH_FLOW := MULTI_DRL( TIME_SCALE=[1M,5M,30M,1H], STATE_ENC=G_CONV_NET( NODE_FEAT=[HKHOLD,IDX_FUT,ETF_FLOW], EDGE_W=CROSS_CORR), REWARD=1.4*RET_SMOOTH(0.9) - 0.3*VOL_DD + 0.2*FLOW_GRAD); // 波动引擎 VOL_REGIME := NEURAL_REGIME( VOL_COMP=[VOL_BAND, GARCH(1,1), JUMP_DIFF], TRANS_NET=TCN( IN_DIM=6, LEVELS=8, DILATE=2), JUMP_DETECT=BAYES_CP( PRIOR_A=0.1, WARN_TH=0.95)); // 行业轮动 IND_SCORE := 0.35*NLP_SENTIMENT( [NEWS,TWIT,RED,INST_RESEARCH], T_DECAY=EXP(-0.07*DELAY), TOPIC_CLU=BERT_TOPIC(256)) + 0.30*ADAPT_MOMENTUM( WINDOW=FOURIER_AD(14), VOL_ADJ=TRUE, DECAY=0.02) + 0.25*FLOW_MOM_3D( LEAD_LAG=[1.2, 0.8], LIQ_MULT=VOL_SMOOTH) + 0.10*POLICY_SENSE*(2.0 - 0.35*MARKET_PHASE); // 信号融合 FINAL_SIGNAL := DEEP_FUSION( INPUT=[ TEMP_CONV(ALPHA_STREAM, [3,5,7]), SPAT_ATTN(IND_CORR,64) ], FUSE_LAYER=[ TRANS_ENC(8,256), GBOOST_SEL(500,0.01) ], ACT_COND=[ Q_SIG >= NEURAL_TH(MARKET_PH), VOL_RAT > 1.5*DYNA_BETA, PRICE_Q(0.85,50), LIQ_SCORE>0.97, INST_FLOW>=3.2, ANOM_SCORE>NEURAL_ANO, FUND_CONF(3D,0.8) ], DYN_WEIGHT=NEURAL_W(0.0005,20)); // 风控系统 RISK_CTRL := HIER_RISK( L1=VOL_CAP(0.25,ADAP_SKEW), L2=CORR_DIV( MAX_SECT=0.15, MIN_DIVERGE=0.3), L3=BLACKSWAN_PRO( STRESS_IDX>0.85, LIQ_FLOOR=0.001, HEDGE=0.3));```你的身份是高级编程技术专家,精通各类编程语言,能对编程过程中的各类问题进行分析和解答。我的问题是【我编辑通达信选股代码,你如何深度理解此代码能否选到资金持续流入,股票市场情绪启动,盘中异动启动主升浪的股票,及日线盘中预警选股和盘后选股。用2018-2024年全A股周期回测验证此代码选股逻辑的准确性和胜率,评估月胜率达到多少?评估有效信号准确率达到多少?
03-29
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值