- 博客(21)
- 收藏
- 关注
原创 强化学习-随机近似与随机梯度下降
本篇博客主要包含如下内容:1️⃣ 新的角度再看mean eatimation;3️⃣ 随机梯度下降以及它的各种变体(GD、BGD、SGD、MBGD)。
2025-03-04 23:54:00
1232
8
原创 【论文分享02】A brief introduction to weakly supervised learning
本论文主要介绍了弱监督学习,探讨其在数据标注成本高场景下的应用,概述了相关研究的进展,为后续研究提供了参考。下面是论文的脑图。监督学习在有强监督信息时成果显著,但实际任务中获取监督信息成本高,弱监督学习愈发重要。文章主要聚焦不完全、不确切和不精确监督,而实际中多种类型常同时出现且还有其他类型的弱监督,感兴趣的同学们可以搜索相关的资料进行阅读。
2025-02-25 21:33:25
733
原创 【论文分享01】Communication is All You Need: Persuasion Dataset Construction via Multi-LLM Communication
该论文提出了一种多LLM通信框架,用于自动生成高质量、多样化的说服性对话数据,为说服相关研究提供了新途径和有价值的资源。下面是论文的脑图。
2025-02-18 21:36:23
961
原创 DeepSeek-R1技术报告快速解读
本篇是对DeepSeek-R1技术论文的简单整理,辅助大家快速了解DeepSeek-R1的相关技术背景。
2025-02-09 21:19:40
1931
原创 【kimi k1.5技术报告】KIMI K1.5: SCALING REINFORCEMENT LEARNING WITH LLMS
本文对Kimi K1.5的技术报告进行了简单的解读,供大家快速阅读和思考!!!
2025-01-24 14:54:26
957
原创 强化学习-蒙特卡洛方法
本篇博客开始介绍model-free的方法,model-free的核心思想是基于数据来估计出一个模型,核心包括:蒙特卡洛思想、MC Basic算法、MC Exploring Starts算法以及MC Epsilon-Greedly算法。
2025-01-16 23:45:57
2122
13
原创 【论文阅读-思维链的构造方法02】4.1.2 Automatic Construction-02
本篇涉及4篇论文,是上一篇4.1.2 Automatic Construction-01的延续,旨在解决如何自动构建CoT。
2025-01-09 14:14:29
1669
13
原创 【论文阅读-思维链的构造方法02】4.1.2 Automatic Construction-01
本文是思维链综述中 4.1.2 Automatic Construction小结中涉及的前4篇论文,从三方面进行讲解:1)提出了什么问题?2)如何解决的?3)效果及展望。
2025-01-02 16:32:57
1318
1
原创 强化学习-值迭代与策略迭代(动态规划)
本文针对强化学习第4课的内容进行了总结,包含3部分:value iteration;policy iteration;truncated policy iteration。
2024-12-23 22:09:36
1372
10
原创 【论文阅读-思维链的构造方法01】4.1.1 Manual Prompting
【思维链综述】第四章节中-4.1.1 Manual Prompting小节涉及的5篇论文要点总结与方法对比。
2024-12-19 11:08:46
1115
11
原创 强化学习-贝尔曼公式
本文主要包含以下部分:1)return的重要性;2)state value和action value的定义以及之间的关系;3)贝尔曼公式的推导。
2024-12-10 22:24:24
1245
2
原创 【思维链综述】-Navigate through Enigmatic Labyrinth A Survey of Chain of Thought Reasoning: Advances,
大模型技术 ----> 思维链
2024-11-22 14:48:56
1160
【论文阅读-思维链的构造方法01】4.1.1 manual prompt小节,论文合集
2024-12-23
【论文阅读-思维链的构造方法02】4.1.2 Automatic Construction小节,论文合集
2024-12-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人