Wang S-优快云博客

原创 llama_index框架构建搜索引擎

使用 llama-index 框架构造搜索引擎

2024-07-26 16:08:42 2858 3

原创 Llama-factory源码详细解读

llama_factory 源码解读

2024-07-08 09:57:19 7094 4

原创 Qanything源码解读

Qanything 源码解读

2024-07-02 17:29:08 1026 2

原创 quantization_PTQ

该笔记记录主流的量化方法 PTQ

2024-06-28 15:12:54 1228

原创 MetaGPT-DataInterpreter源码解读

mategpt 源码解读

2024-06-28 14:22:44 1776

因为当前状态和动作会影响未来的状态和动作，进而影响整体收益。因此，更合理的设计是：t时刻总收益 = **即时收益 + 未来收益。通过在同一个问题上生成多条回答，评估彼此相关的响应组(彼此之间相互比较)来优化策略模型。具有随机性，相同的观测值未必采取相同的行动(即: 同一个问题上生成多条回答)；收集到的数据用很多次，也就是可以执行梯度上升好几次，更新参数好几次。简单点介绍：引入另外一个策略。产生的收益较高，那就增大它出现的概率，否则降低它出现的概率。方法了，仔细理解下图，确保图的流程和上述公式能准确对上。

2025-03-07 18:20:07 1214

控制领域系统辨识.pdf

遗传算法优化模糊规则和隶属度函数方法及代码实现（一）

2021-09-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weixin_43214046的博客

原创智能写作分享

原创 llama_index框架构建搜索引擎

原创 MOE技术简要记录

原创 Llama-factory源码详细解读

原创 vllm技术分享

原创 Qanything源码解读

原创 Qwen模型源码解析

原创 quantization_PTQ

原创 RoPE详细解读

原创 MetaGPT-DataInterpreter源码解读

原创 DPO算法推导

原创遗传算法优化模糊控制规则

原创 DeepSeek 再探(二)

控制领域系统辨识.pdf

空空如也