自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

MXZJSJ1112的博客

我相信,我终将成功!!!

  • 博客(21)
  • 收藏
  • 关注

原创 强化学习-随机近似与随机梯度下降

本篇博客主要包含如下内容:1️⃣ 新的角度再看mean eatimation;3️⃣ 随机梯度下降以及它的各种变体(GD、BGD、SGD、MBGD)。

2025-03-04 23:54:00 1232 8

原创 文科生都能学会的-coze搭建《论文辅助阅读器》-V1

文科生都能操作的coze搭建AI应用开发!!!

2025-03-01 00:53:47 1095 9

原创 【论文分享02】A brief introduction to weakly supervised learning

本论文主要介绍了弱监督学习,探讨其在数据标注成本高场景下的应用,概述了相关研究的进展,为后续研究提供了参考。下面是论文的脑图。监督学习在有强监督信息时成果显著,但实际任务中获取监督信息成本高,弱监督学习愈发重要。文章主要聚焦不完全、不确切和不精确监督,而实际中多种类型常同时出现且还有其他类型的弱监督,感兴趣的同学们可以搜索相关的资料进行阅读。

2025-02-25 21:33:25 733

原创 迎接2025,立个flag

2025计划书

2025-02-22 22:45:44 172

原创 【论文分享01】Communication is All You Need: Persuasion Dataset Construction via Multi-LLM Communication

该论文提出了一种多LLM通信框架,用于自动生成高质量、多样化的说服性对话数据,为说服相关研究提供了新途径和有价值的资源。下面是论文的脑图。

2025-02-18 21:36:23 961

原创 DeepSeek-R1技术报告快速解读

本篇是对DeepSeek-R1技术论文的简单整理,辅助大家快速了解DeepSeek-R1的相关技术背景。

2025-02-09 21:19:40 1931

原创 【kimi k1.5技术报告】KIMI K1.5: SCALING REINFORCEMENT LEARNING WITH LLMS

本文对Kimi K1.5的技术报告进行了简单的解读,供大家快速阅读和思考!!!

2025-01-24 14:54:26 957

原创 强化学习-蒙特卡洛方法

本篇博客开始介绍model-free的方法,model-free的核心思想是基于数据来估计出一个模型,核心包括:蒙特卡洛思想、MC Basic算法、MC Exploring Starts算法以及MC Epsilon-Greedly算法。

2025-01-16 23:45:57 2122 13

原创 【论文阅读-思维链的构造方法02】4.1.2 Automatic Construction-02

本篇涉及4篇论文,是上一篇4.1.2 Automatic Construction-01的延续,旨在解决如何自动构建CoT。

2025-01-09 14:14:29 1669 13

原创 【代码随想录-数组篇02】:双指针(快慢指针)法相关力扣练习题

本篇从力扣5道编程题出发,为大家展示双指针的用法。

2025-01-08 16:42:08 1126

原创 【代码随想录-数组篇01】:二分查找相关力扣练习题

本篇共包含5道使用二分查找可以解决的力扣编程题目,全部用python语言进行实践。

2025-01-03 16:44:18 998

原创 【论文阅读-思维链的构造方法02】4.1.2 Automatic Construction-01

本文是思维链综述中 4.1.2 Automatic Construction小结中涉及的前4篇论文,从三方面进行讲解:1)提出了什么问题?2)如何解决的?3)效果及展望。

2025-01-02 16:32:57 1318 1

原创 强化学习-值迭代与策略迭代(动态规划)

本文针对强化学习第4课的内容进行了总结,包含3部分:value iteration;policy iteration;truncated policy iteration。

2024-12-23 22:09:36 1372 10

原创 Docker基础知识

docker基础知识

2024-12-22 21:04:29 1453 2

原创 【论文阅读-思维链的构造方法01】4.1.1 Manual Prompting

【思维链综述】第四章节中-4.1.1 Manual Prompting小节涉及的5篇论文要点总结与方法对比。

2024-12-19 11:08:46 1115 11

原创 强化学习-贝尔曼最优公式

贝尔曼最优公式数学理论与求解

2024-12-16 00:32:29 835

原创 Shell脚本基础语法教程

本文简单记录了Shell脚本的相关知识。预计阅读时间10分钟+。

2024-12-12 11:12:52 1034

原创 强化学习-贝尔曼公式

本文主要包含以下部分:1)return的重要性;2)state value和action value的定义以及之间的关系;3)贝尔曼公式的推导。

2024-12-10 22:24:24 1245 2

原创 【思维链综述】-Navigate through Enigmatic Labyrinth A Survey of Chain of Thought Reasoning: Advances,

大模型技术 ----> 思维链

2024-11-22 14:48:56 1160

原创 强化学习-基本概念

强化学习基本概念

2024-11-18 23:20:55 589

原创 新账号,新征程

新账号,新征程。小学鸡写手,纯纯鞭策自己!!!

2024-11-12 22:02:44 192 1

【论文阅读-思维链的构造方法01】4.1.1 manual prompt小节,论文合集

涉及6篇论文: 1、Chain-of-Thought ..., 2、PAL、Program of Thoughts Prompting、MathPrompter 这3篇主要是根据数学解题思路对CoT在数学推理、符号推理等方向进行的改进和提升。 3、Complexity-Based Prompting for Multi-step Reasoning

2024-12-23

【论文阅读-思维链的构造方法02】4.1.2 Automatic Construction小节,论文合集

包含如下9篇内容: 1、Large Language Models are Zero-Shot Reasoners 2、Program of Thoughts Prompting: Disentangling Computation from Reasoning for Numerical Reasoning Tasks 3、Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models 4、Automatic Chain of Thought Prompting in Large Language Models 5、Reprompting: Automated Chain-of-Thought Prompt Inference Through Gibbs Sampling ......

2024-12-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除