- 博客(17)
- 收藏
- 关注
原创 Actor-Critic 算法
基于策略梯度的算法则是在学习中由于依赖蒙特卡洛估计,因此会产生高方差(由于策略梯度需要实现从开始到结束的一次完整采样才能更新,值受环境随机性(状态转移、初始状态、动作采样)影响极大,不同的轨迹可能会有巨大差异,导致方差很大)。基于值函数的算法需要评估每个状态下所有动作的值函数,因此在连续动作中(几乎有无数中动作选择的情况)无法使用,并且该算法没有显式地学习策略,仅是选择值函数最大的动作,无法直接学习随即策略。其中,Actor 的更新采用策略梯度的原则,Critic 采取时序差分残差的方法,残差表示为。
2025-04-13 21:46:49
136
原创 策略梯度 REINFORCE 算法
DQN算法及其变体都是基于值函数的算法,通过值函数来评估不同动作的价值,从而选择价值最高的动作。策略梯度算法则是直接学习不同状态下采取的策略,并用神经网络来显示采取不同动作的概率,根据概率选择动作。首先我们将策略学习的目标函数定义为:s代表状态,s0则为初始状态;为策略;V为价值函数;代表从s0开始的期望回报(均值)为了学习策略中的参数,对进行求导可得策略梯度策略梯度的具体求导过程感兴趣可看根据参考文章,推导非常详细。
2025-04-13 20:41:08
226
原创 DQN、Double DQN、 Dueling DQN 理解
一言蔽之,上述三种算法就是使用神经网络的拟合能力将拟合出来。具体三种算法的不同在神经网络的更新和损失函数中有所体现。
2025-04-11 21:33:19
531
原创 老虎机中 上置信界算法 / 汤普森采样算法 的理解
准确来说,多臂老虎机问题中,每次 选出众多拉杆中的一个拉杆 后,根据 是否获得奖励 来更新Beta分布的参数。进行分析,发现其随着N增大而增大,随着n增大而减小,复合我们对探索价值的期望特性。首先理解Beta分布,简单来说Beta分布就是 估算概率的概率 ,由于概率在[0,1],更适合做老虎机问题的概率。在老虎机中,假设拉动拉杆会以概率p获取奖励1,概率1-p获取奖励0。也就是说,Beta分布并不是更具采样直接得出的概率,而是代表了概率的概率。,其中N为拉动老虎机的总次数,n为拉动这个杆子的总次数。
2025-04-09 22:38:12
309
原创 朴素贝叶斯(先验概率、后验概率、条件概率、似然概率)
条件概率是基于两个事件之间的关系,只考虑事件 A 和事件 B 同时发生的情况以及事件 B 发生的情况来计算。而后验概率是在贝叶斯框架下,结合先验概率和新的观测数据来计算的,它是一种对先验概率的修正。后验概率是 “执果寻因” 中 “果” 的概率(比如丢10次硬币5次正面朝上后,基于这个结果来探求丢硬币正面朝上的概率),根据已知的 “果” 来更新对 “因” 的概率评估。在事情已经发生的情况下,导致这个事情发生的因素的可能性。在某个事情发生后,求这个事情发生的原因是由于某个因素引起的概率。
2025-04-08 16:12:18
207
原创 大模型——Langchain 文本分割_MapReduce (11)
首先将文章切分成许多段,再将每个段进行总结,将每个段的总结再分批给大模型得出最终总结。
2025-04-06 17:03:45
96
原创 大模型——Langchain 文本摘要_Stuff方式(10)
自动加载并进行文本摘要任务,封装了模型、文本分割器和摘要策略。:简单高效,适合短文本(能保留完整上下文)。:某些 API 可能直接返回错误(如。:如果文本过长,会超过模型的。:模型自动丢弃超出部分。
2025-04-06 16:37:23
120
原创 大模型——Langchain 文本分类(9)
通过Classification中定义的sentiment、aggressiveness、language来使模型返回结构化数据,从而通过标签来实现情感分类。
2025-04-06 16:12:05
187
原创 大模型——Langchain 生成数据 (8)
的函数,可以用于数据增强、测试或开发原型。subject和extra为input_variables中定义的参数,进行prompt的填充。langchain_experimental.synthetic_dat库中用于生成合成数据。
2025-04-06 15:52:49
233
原创 大模型——Langchain 提取结构化数据 (7)
ManuPerson来实现一段话中有多个人时的处理,schema为使用的模板。使用pydantic.v1库和大模型提取出结构化数据。表示字段是可选的,这种写法能够防止报错。为字段添加 元数据 和 额外约束。定义输出的结构化模板,同时使用。
2025-04-06 14:51:54
191
原创 大模型——构建RAG (5)
bs_kwargs 传入字典,使用bs4来帮助解析网页中的有效信息。chunk_overlap:允许重复字符,增加上下文的连续性。这里显示的指示了输入、历史、输出信息存储空间的名称,如果不显式指示会使用默认的。3.存储和索引分割:使用VectorStore和Embeddings。更适合RAG的链创造方法,能够实现List[Document]的自动。1.加载数据:使用DocumentLoaders。2.分割数据:使用Text_splitters。能够将检索和生成任务分开,达到更好的任务效果。
2025-04-03 20:37:23
141
原创 大模型——Langchain 工具的加入 (4)
agent_executor = chat_agent_executor.create_tool_calling_executor(model, tools)生成代理,自动整合工具并生成结果。model_with_tools = model.bind_tools(tools)只是生成了模型层和调用Tavily的申请,而没有进行执行。返回的是HumanMessage、AIMessage、ToolMessage,但是由于模型无法生成回答,因此AIMessage没输出。
2025-04-03 16:28:37
130
原创 大模型——Langchain 构建检索器并查询 (3)
中,chain操作会将字典{'question': RunnablePassthrough(), 'context': retriever}自动赋值给message,从而实现变量的动态赋值。类中,page_content为内容,metadata为一个字典,一般从来存储page_content的相关信息(来源等)RunnablePassthrough()是个占位符,防止没有值报错。
2025-04-03 15:43:36
193
原创 大语言模型——Langchain基础使用(1)
print(chain.invoke({'langeage': 'English', 'text': '下节课不去打球了'}))chain = prompt_template | model | parser # 链的实例化。model = ChatOpenAI(model = 'gpt-4-turbo') # 模型实例化。SystemMessage(content='请将以下的内容翻译成意大利语'),('system', '将下面内容翻译成{language}'),
2025-04-02 21:15:36
115
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人