小饼干超人-优快云博客

翻译 deepseek-PPO和GRPO的区别，无强化学习基础也能看懂，适合小白

在强化学习 (RL) 中，仅仅知道“你得了多少分”通常是不够的。单纯追求高分可能会导致各种副作用，例如过度探索、模型不稳定，甚至偏离合理策略的“捷径”行为。为了应对这些挑战，RL 采用了多种机制，例如Ctritic（价值函数）、Clip操作、Reference模型以及较新的组相对策略优化 (GRPO)。为了使这些概念更加直观，我们打个比方：将强化学习的训练过程想象成小学考试场景。我们（正在训练的模型，Actor）就像努力取得高分的学生，给我们考试评分的老师就像奖励模型。

2025-03-03 14:55:46 91

原创 linux下，huggingface的默认下载路径和modelscope魔搭的默认下载路径

huggingface的模型默认下载路径。modelscope的模型默认下载路径。

2025-02-11 10:20:08 233

原创 bert微调下游任务-情感分析

使用bert进行微调，本篇文章的任务是情感分析。

2025-01-13 15:59:53 688

原创 BertTokenizerFast 和 BertTokenizer 的区别

都是用于对文本进行标记化的工具，主要用于处理和输入文本数据以供 BERT 模型使用。它们都属于 HuggingFace 的库。

2025-01-13 14:18:03 585

原创 huggingface/bert/transformer的模型默认下载路径以及自定义路径

如果由于某些原因您需要更改默认的缓存路径，可以通过设置环境变量来指定新的路径。import os。

2025-01-10 16:12:59 1231

原创从预训练的BERT中提取Embedding

注意力掩码：下一步，要让模型理解[PAD]标记只是为了匹配标记的长度，而不是实际标记的一部分。我们将所有位置的注意力掩码值设置为1，将[PAD]标记的位置设置为0，如下所示。填充：为了保持所有标记的长度一致，我们将数据集中的所有句子的标记长度设为7。句子I loveParis的标记长度是5，为了使其长度为7，需要添加两个标记来填充，即[PAD]。ID 101表示标记[CLS]，1045表示标记I，2293表示标记love，以此类推。添加标记：在开头添加[CLS]标记，在结尾添加[SEP]标记，如下所示。

2025-01-10 15:53:02 1237

原创 shell脚本，循环检查后台是否有程序运行

【代码】shell脚本，循环检查后台是否有程序运行。

2025-01-08 20:09:28 83

原创【已解决】tokenizer.chat_template is not set and no template argument was passed

在模型合并后，我只复制了tokenizer.json到合并模型的文件夹，没有把tokenizer_config.json也复制过去。

2024-08-16 20:53:00 4281

原创使用 poly 进行特征交叉，并将交叉后的特征拼接到原 df 中

poly特征交叉

2024-05-20 15:28:34 357

原创 tqdm+enumerate+zip组合使用

【代码】tqdm+enumerate+zip组合使用。

2024-02-06 16:58:41 655

原创安装flux遇到react需要降级的情况

的版本不对，当前是18，但flux只支持。版本，结果出现错误，提示有不一致的地方。

2023-07-28 15:37:46 2027

原创 python一行代码实现图的转置

给你一个下标从 0 开始、大小为 n x n 的整数矩阵 grid ，返回满足 Ri 行和 Cj 列相等的行列对 (Ri, Cj) 的数目。如果行和列以相同的顺序包含相同的元素（即相等的数组），则认为二者是相等的。

2023-07-06 23:51:21 956

原创 python3 pdf逆序排列，pypdf2安装及使用

pypdf2 处理pdf文件，使其逆序排列

2023-04-03 19:14:04 1695

原创判断字符串/列表中的元素是否只出现一次，以及找到只出现一次的元素

判断字符串/列表中的元素是否只出现一次，以及找到只出现一次的元素。

2022-08-04 21:57:25 2962

原创 conda激活环境失败 Could not find conda environment ，查看envs后发现其实在里面

could not find conda environment

2022-07-21 20:34:02 7124

原创 hexo WARN No layout: index.html

hexo no layout，页面无响应

2022-07-12 20:30:50 3503

原创 Excel 输入日期，类型为yyyymmdd格式

如何在EXCEl中把数字变成日期格式按想要的方式设置日期格式

2022-07-06 11:19:11 6702

原创 spring mvc快速入门（一个超简单的demo）-超详细（ssm的课程笔记）

开发步骤1.导入SpringMVC相关坐标2.配置SpringMVC核心控制器DispathcerServlet3.创建Controller类和视图页面4.使用注解配置Controller类中业务方法的映射地址5.配置SpringMVC核心文件spring-mvc.xml6.客户端发起请求测试

2022-05-08 10:08:23 1285

原创 Cannot find reference ‘SparseFeat‘ in ‘inputs.py‘/ Cannot find reference ‘gen_data_set‘ in ‘preproce

问题在使用deepMatch的代码时，发现有有两处报错import pandas as pdfrom deepctr.inputs import SparseFeat, VarLenSparseFeatfrom preprocess import gen_data_set, gen_model_inputfrom sklearn.preprocessing import LabelEncoderfrom tensorflow.python.keras import backend as Kf

2022-03-15 14:56:15 622

原创 pandas 将多列拼接到一列后面，进行多列的横向或纵向合并

需求输入import pandas as pdlt = [["A", "F", "K"], ["B", "G", "L"], ["C", "H", "M"], ["D", "I", "N"], ["E", "J", "O"]]df = pd.DataFrame(lt, columns=["C1", "C2", "C3"])print(df) C1 C2 C30 A F K1 B G L2 C H M3 D I N4 E J O输出：仅一列拼接的时候横向 C10 A

2022-03-04 10:57:46 6173 4

原创如何快速生成多类别的one-hot向量

Keraskeras 的版本是 2.3.1>>> import numpy as np>>> import keras>>> labels = np.random.randint(10, size=(10, 1))>>> labelsarray([[7], [1], [8], [9], [3], [1], [1], [6],

2022-02-11 19:53:38 876

原创 [已解决] jupyter notebook autopep8 Error loading library for python: ModuleNotFoundErrorNo module

文章目录问题解决问题和下图这个例子一样，每次打开 jupyter notebook 就会有这个弹框解决$ pip install autopep8参考链接：https://github.com/ipython-contrib/jupyter_contrib_nbextensions/issues/1300

2021-12-22 14:30:30 3057

原创 IDEA scala 修改默认的单行注释格式

文章目录问题解决方法问题IDEA 默认的 scala 单行注释会存在//顶格的问题。解决方法取消勾选 line comment at first column但此处还有一行，需要勾选 √ Add a space at comment start我当前的IDEA版本是2019.3 没有展示这一行，但是2021.2版本上是有的。...

2021-12-12 20:30:38 349

原创 python生成/移除emoji

安装emojipip install emoji生成emoji>> import emoji>> print(emoji.emojize('Python is :thumbs_up:'))Python is ????>> print(emoji.emojize('Python is :thumbsup:', use_aliases=True))Python is ????>> print(emoji.demojize('Python is ?

2021-11-22 19:28:09 1006

原创【新版和旧版的方法都有】pycharm/IDEA/webstorm 取消双击 shift 键出全局搜索

版本在 2021.2 之后1.找到“设置”windows快捷键： Ctrl + Alt + Smac 快捷键：Command+,2.搜索double，在 Disable double modifier key shortcuts 前面打√，然后点击Apply，再点击 OK ，即可生效版本在 2021.2 之前Press Ctrl+Shift+A to invoke the “Find Action…” dialog.Type “registry”.Choose “Registry…” f

2021-11-18 15:36:12 538 2

原创 java快速生成get/set方法

Student类package com.my.app.xxx;public class Student { private String name; private int age; private String grade;}两种方式生成get/set方法一、IDEA中安装插件 lombok

2021-10-14 15:55:22 10008

原创 python与hadoop/hdfs的交互，读取文件/下载/上传/删除

文章目录1.用 python 运行 command2.hdfs的相关命令ls：返回文件或目录的信息get：下载文件到本地put：从本地文件系统中复制单个或多个源路径到目标文件系统。也支持从标准输入中读取输入写入目标文件系统。copyFromLocal：限定从hdfs复制到本地copyToLocal：限定从本地复制到hdfsrm：删除hdfs上的文件，只删除非空目录和文件rm -r：递归删除hdfs上的文件，会删除目录test + 参数：检查文件是否存在1.用 python 运行 command# imp

2021-10-14 15:46:35 3019

空空如也

空空如也