辰阳星宇-优快云博客

原创 211、【图论】建造最大岛屿（Python）

【代码】211、【图论】建造最大岛屿（Python）

2025-03-24 23:42:14 366

原创 210、【图论】课程表（Python）

这道题本质上是一个拓扑排序。每次先统计每个点的入度个数、然后再统计点与点之间的邻接关系，找到入度为0的点作为起始遍历点。之后每遍历到这个点之后，就把这个点后续的邻接关系边的点入度减去一。当某个点入度为0时，继续被加入其中开启下一轮遍历。当遍历完后，如果还有剩余点的话，则说明不满足拓扑要求。

2025-03-20 20:52:28 284

原创 209、不大于n的数的组合（python）

已知一个数n和可组合的数字集合s，通过组合数字集合构成一个数x，使其不大于n。

2025-03-17 22:37:57 202

原创 207、【图论】孤岛的总面积

相比于，就是在这个代码的基础上。先遍历边界，将边界连接的岛屿变为0，然后再计算一遍当前为1的岛屿面积。

2025-03-12 23:45:17 390

原创 206、【图论】岛屿数量

【代码】206、【图论】岛屿数量。

2025-03-09 22:48:47 313

原创 205、【数组】NLP分词实现（Python）

给定一个词典，比如[“杭州”,“西湖”,“博物馆”,“杭州西湖博物馆”,“我”]对于输入的文本进分词：我在杭州的杭州西湖博物馆玩了一天分词结果处理为如下形式的字符串: 我\W 在杭州\W 的杭州西湖博物馆\W 玩了一天对于输入的文本进分词：我在杭州的杭州西湖博物玩了一天分词结果处理为如下形式的字符串: 我\W 在杭州\W 的杭州\W 西湖\W 博物玩了一天。

2025-02-26 21:56:16 325

arxiv: https://arxiv.org/abs/2411.14405github: https://github.com/AIDC-AI/Marco-o1Marco-o1: Towards Open Reasoning Modelsfor Open-Ended Solutionsarxiv: https://arxiv.org/abs/2410.02884github: https://github.com/SimpleBerry/LLaMA-O1/tree/main、https://git

2025-02-19 17:09:53 633

原创【Reasoning】O1 Replication Journey – Part 2: Surpassing O1-preview through Simple Distillation Big Pr

arxiv: https://arxiv.org/abs/2411.16489github: https://github.com/GAIR-NLP/O1-Journey复刻o1的能力成为工业和学术界引人注目的焦点，作者在探索复制o1工作时，发现一种简单而有效的方式：通过prompt促使o1对复杂问题生成长思维链，对其进行知识蒸馏。将得到的数据进行SFT训练后，发现效果可以超越o1-preview模型。作者的o1复制旅程的第一部分中，引入了一种新的方法来综合称为“旅程学习”的长思维过程。该方法利用树搜索算

2024-12-07 16:13:57 682

原创【Reasoning】Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine wi

通过将MCTS的系统探索能力与大型语言模型的Self-Refine和Self-Evaluation相结合，创建出了一个更鲁棒的的框架，以解决当前大型语言模型难以解决的复杂推理任务。：在更新所有节点的Q值之后，我们确定候选节点的集合C，以便进一步扩展或选择，然后使用UCT更新公式更新下一个选择阶段所有节点的UCT值。其中Q′(a)为考虑子节点影响的答案a的更新值，Q(a)为只考虑其奖励样本的原始质量值，其中Q(a)是答案a的Q值，N(·)是给定节点的总访问次数，c是平衡探索和利用的常数，

2024-12-06 14:55:32 1099

原创【Reasoning】LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning

复杂的数学推理，特别是奥林匹克级别的题对大语言模型来说仍然具有很大挑战。在现有的研究中：本文LLaMA-Berry框架通过将Self-Refine应用于Monte Carlo Tree Search (SR-MCTS)，显著提高了大型语言模型的解生成效率，然后以有向图的形式构建一个全局输赢矩阵来计算最终的分位数分数，结合PPRM将绝对评分转换为偏好预测任务，构建了解决方案之间的偏好，并且使用增强EBC方法计算得到最终的全局分位得分

2024-12-05 15:07:46 1173

原创【Reasoning】Marco-o1: Towards Open Reasoning Modelsfor Open-Ended Solutions

微调、MCTS、反思机制和创新推理策略等技术为Marco-o1模型提供了支持，本文的主要目标是探索：o1模型能否有效地推广到缺乏明确标准且奖励难以被量化的更广泛的领域。为了复现o1，文章主要做了下述事情：构建了三类SFT数据集，前两个是为了增强推理能力，最后一个是为了维持模型在广泛任务下保持优质的推理能力。将LLM与MCTS集成在一起，增

2024-12-05 15:03:52 777

原创【Reasoning】Improve Mathematical Reasoning in LanguageModels by Automated Process Supervision

arxiv: https://arxiv.org/abs/2406.06592COT和SC-COT对于模型推理能力的提升仍然有效，已有研究提出用一个验证器去帮助LLM提升推理能力。采用ORM结果验证器岁可以对最终结果生成一个信号，但是不能去奖励或者惩罚中间步骤。采用PRM可以对中间步骤在更细粒度的视角下，对中间步骤进行奖励或者惩罚。受到AlphaGo Zero的启发，本文提出了一个分而治之的蒙特卡洛树搜索算法OmegaPRM，来有效的收集高质量过程监督数据。这篇论文提出了一种名为OmegaPRM的新型分治风

2024-12-05 15:00:04 1259

原创【SFT】Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning

从LLM的评估能力和自我增强的当代范式中获得灵感，本文使用『反思-循环』机制在指定的标准下反思评估并对当前数据集进行改进。指令部分，作者发现Alpaca的指令经过本文方法后会被增长，而WizardLM的会被缩短。本文从指令长度、生成响应长度、指令困惑度、没有相关指令下响应的困惑度、有相关指令下响应的困惑度、连贯性、指令遵循难度评分这几个维度对比了原始chat模型和用本文方法SFT后的模型性能上的区别。标准包括：主题的复杂性、回应所需的细节程度、回应所需的知识、指令的模糊程度、是否设计逻辑推理或解决问题。

2024-10-23 15:28:54 695

原创【Prompt Engineer】TAKE A STEP BACK: EVOKING REASONING VIA ABSTRACTION IN LARGE LANGUAGE MODELS

arxiv: https://arxiv.org/abs/2310.06117LLM在生成COT的推理中可能会出现过程错误。为了减少错误，本文引入了Step-Back Prompting来增强模型的推理能力。PaLM-2L、GPT-4few-shot的PaLM2-L，评判正确答案和预测答案是否等效。“Yes”或“No”是返回值。few-shot实验结果可以发现Step-Back提升效果明显示例的变化，对于性能提升影响不大。因此，1-shot就够了。分为五类错误：（2）Knowledge QA对比基线

2024-10-18 16:53:24 598

原创【Dialog system】Prompting and Evaluating Large Language Models for Proactive Dialogues: Clarification

根据不同的应用，对话策略可以是粗的对话行为标签，也可以是细粒度的策略标签。其中，bargain price是卖方当前愿意出售该物品的价格，buyer target price是买房当前愿意购买该物品的价格，listed price是当前物品的标价。基于LLM的对话系统无法预测适当的谈判策略和对话行为。其中，D是背景信息，C是历史对话记录，A是可能的对话行为（例如，澄清问题或者直接回答）。基于LLM的对话系统在对话积极主动性方面存在局限性，不能对模棱两可的问题提出澄清、不能拒绝有问题的用户请求。

2024-10-17 13:28:02 869

原创【Agent】Cognitive Architectures for Language Agents

arxiv: https://arxiv.org/abs/2309.02427现有的Agent框架，大部分是基于强化学习提出的框架。本文结合生产系统和认知科学，提出了一个结构化和模块化的Agent架构。记忆可分为两类：认知架构分为三个组件：决策过程分为两步基础动作执行外部动作并将生成的环境反馈作为文本输入给工作记忆。外部环境分为三类：检索过程从长期记忆中读取信息放至工作记忆中。《Generative agents: Interactive simulacra of human behavior.》通过结合近

2024-10-08 16:34:50 1053

原创【Preference Learning】Reasoning with Language Model is Planning with World Model

用自然语言在prompt中定义状态和动作。根据定义的状态和动作，将推理过程描述为马尔可夫过程（MDP）。

2024-09-29 17:53:06 1331

原创【Prompt Enginner】Tree of Thoughts: Deliberate Problem Solving with Large Language Models

现有的方式在思考过程中，缺乏对多种不同结果的思考延伸，并且缺乏规划、展望和回溯来帮助评估不同选择的结果。为启发式的增强推理能力，作者引入树形启发式思考框架TOT。

2024-09-13 18:51:42 246

原创【Preference Learning】Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs

在推理过程中使用TOT方式可以增加推理性能，但由于增加了推理次数，导致耗时过大。目前待解决的问题是如何能在推理时既保持很好的推理能力，又保持推理耗时不会过大。

2024-09-13 18:49:16 1041

原创【Preference Learning】Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning

现有的使用偏好数据的方式有两种：一种是使用基于偏好数据构建奖励模型，另一种是直接使用偏好数据更新模型。传统的RLHF方法中，奖励模型是静态的、离线的。新提出的一种方式是“迭代”的使用偏好数据直接更新模型，它涉及一个循环的过程，会从当前策略开始，通过收集和分析数据来生成新的偏好数据，再使用新生成的数据来更新策略。这种方式更专注于模型的持续适应性，让模型更适用于人类决策和推理的复杂性。AlphaZero结合神经网络、强化学习技术和蒙特卡洛搜索树取得了惊艳的效果。

2024-09-05 20:21:45 1252

原创【Agent】Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents

传统的训练Agent方法是在静态数据集上进行监督预训练，这种方式对于要求Agent能够自主的在动态环境中可进行复杂决策的能力存在不足。例如，要求Agent在web导航等动态设置中执行复杂决策。现有的方式是用高质量数据进行微调来增强Agent在动态环境中的决策能力，但这往往会出现复合错误和有限的探测数据，最终导致结果不够理想。

2024-09-03 20:57:07 1465

原创 LLM —— 强化学习（RLHF-PPO和DPO）学习笔记

LLM中强化学习 RLHF部分学习

2024-08-28 15:22:32 3137

原创大模型面试问题

大模型面试题总结

2024-08-03 11:14:53 666

原创 204、【动态规划】牛客网 ——DP3 跳台阶扩展问题（Python版本）

一个DP问题，相比于普通爬楼（只能爬一层或者两层）对应的状态函数为。时，为1，表示从第一层台阶直接跳到第n层。本题的dp是各层方式都可以，那么就是。

2024-07-22 17:12:52 359

原创 RAG的学习与实践——LangChain和LlamaIndex学习笔记

RAG(Retrieval Augmented Generation)系统，代表“检索增强生成”。

2024-07-09 16:42:10 1496

原创 p-tuning算法介绍及其简化版pytorch代码实现

【代码】p-tuning的pytorch实现。

2024-07-05 15:39:17 682

原创 N-gram算法的pytorch代码实现

【代码】N-gram的pytorch代码实现。

2024-07-05 11:42:05 383

原创学习LLM的随笔

（3）困惑度：用来衡量模型在预测下一个词时的平均不确定性。困惑度可以被理解为每个标记（token）的平均"分支因子（branching factor）"。这里的“分支因子”可以理解为在每个位置，模型认为有多少种可能的词会出现。编码需要的编码长度。由于不同事件发生的概率不同，我们不能简单地将这些信息量相加，而应该根据它们发生的概率进行加权平均。熵值越大，所含信息量越多，事件发生的情况越不确定。熵值越小，所含信息量越小，事件发生的情况确定。并求和，相当于是做了加权求和。采用困惑度时，会遇到一些问题。

2024-07-03 17:24:12 1040

原创【检索增强】Retrieval-Augmented Generation for Large Language Models：A Survey

LLM检索增强的新范式

2024-03-29 10:53:31 1800

原创【LLM长文处理】Compressing Context to Enhance Inference Efficiency of Large Language Models

管理长文和扩展对话：内存和推理事件的计算需求增加：选择性上下文方法：识别和修剪输入上下文中的冗余，使输入更加紧凑，提升推理效率。：需要长上下文处理的常见数据源：arXiv论文、新闻论文、长对话、摘要总结、问答、响应生成：显著降低内存成本和生成延迟，同时保持相当的性能。：上下文成本降低50%、内存使用降低36%，推理时间降低32%，仅在四个下游应用有0.023和0.038的轻微性能下降。

2024-01-29 16:15:20 1242

原创 python将logger内容保存到日志文件中 + 将控制台信息保存到日志文件中 + 生成时间戳记录

1、使用Logger对象输出，记录日志2、重定向控制台输出，记录日志3、生成时间戳。

2024-01-23 18:02:55 1160 1

原创【LLM长文处理】WALKING DOWN THE MEMORY MAZE: BEYOND CONTEXT LIMIT THROUGH INTERACTIVE READING

长文本理解：上下文窗口长度有限：外推位置嵌入、递归、检索来扩展上下文窗口：仍然不能有效处理长文理解：MemWalker：将LLM视为一个交互代理，允许它通过迭代提示来决定如何阅读文本。将长上下文处理成一个摘要节点树。接受到查询后，会在树中导航搜索，收集到足够信息就进行响应。：（摘要中未提及，下面是文章中提及的）使用来自scroll基准数据集：QuALITY、SummScreenFD、GovReport：优于使用长上下文窗口、递归、检索的基线方法，并提高了可解释性。

2024-01-17 11:07:39 604

原创【HuggingFace Transformer库学习笔记】基础组件学习：Trainer

如果使用的是vscode，可直接在vscode中启动，输入。（会提示安装），然后再点击在当前工作目录里启动。

2024-01-13 19:05:36 1330

原创【HuggingFace Transformer库学习笔记】基础组件学习：Evaluate

评估指标计算——全局计算。评估指标计算——迭代计算。

2024-01-13 18:06:21 740 4

原创【HuggingFace Transformer库学习笔记】基础组件学习：Datasets

对于分类任务，指定标签字段，然后让这个数据集均衡划分标签字段。加载文件夹内全部文件作为数据集。加载数据集合集中的某一项子集。通过自定义加载脚本加载数据集。按照数据集划分进行加载。

2024-01-13 17:23:28 721

原创【HuggingFace Transformer库学习笔记】基础组件学习：Model

Model学习

2024-01-10 18:07:07 987

原创【LLM的概念理解能力】Concept Understanding In Large Language Models: An Empirical Study

在过去几年里，大语言模型已经成为了学术研究的前沿。最近发布的ChatGPT进一步展示了大语言模型在各种先进技术和工程规划的下游任务中的潜力（Brown et al., 2020）。另一方面，大语言模型理解的能力也会受到其在现实场景中的部署，这使得这一研究问题的探索成为一个新的课题。本文主要从抽象概念和具体概念的角度来研究大语言模型的理解能力。这种探索的灵感来自于现实世界中不同的任务通常需要不同抽象级别的理解能力。在与物理实体相关的任务中，例如对动物的类型进行分类，可能需要更好地具体概念。

2024-01-10 16:59:15 1306

原创 Prompt 提示工程学习笔记

任务描述、输入数据、上下文信息、提示风格：描述想要让LLM遵循的指令。描述应详细清晰，可进一步使用关键词突出特殊设置，从而更好地指导LLM工作。：对于非结构化数据可用文本描述的方式输入，对于非结构化数据（知识图谱、表格、代码等）采用一种合适的方式，例如：文本化、线性化转换函数。：上下文和背景信息。有助于更好地描述任务范例、任务目标、特殊的输出格式以及输入和输出之间的映射关系。：设置合适的提示风格，有助于激发LLM解决特定任务的能力。

2023-12-26 10:02:55 1483

物体运动终端检测系统设计.pdf

本文详细的书写了如何实现使用树莓派3B系列作为硬件，QT平台作为软件设计开发了运动检测终端，使用ADXL345三轴加速度传感器来采集物体的运动加速度，通过卡尔曼滤波算法对所采集的数据进行预处理，再利用加速度与相对倾角公式得到了物体运动过程中相对于自然坐标系的倾角角度。通过调用QCustomplot库将加速度数据转换为二维坐标系下的曲线进行动态实时的可视化呈现，同时也可将加速度曲线图存储到本地文件夹内。在数据的三维可视化方面，使用OpenGL将所获得的倾角数据作为参数从而构建出三维物体动态实时变化的运动姿态。实际完成的项目，根据步骤可以实现。（wangxingding）

2021-05-18

sensor_data-Copy1.csv

该.csv文件可被作为car-sensor模拟数据，可用来作车联网项目的模拟数据进行测试。

2020-04-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人