- 博客(203)
- 收藏
- 关注
翻译 deepseek-PPO和GRPO的区别,无强化学习基础也能看懂,适合小白
在强化学习 (RL) 中,仅仅知道“你得了多少分”通常是不够的。单纯追求高分可能会导致各种副作用,例如过度探索、模型不稳定,甚至偏离合理策略的“捷径”行为。为了应对这些挑战,RL 采用了多种机制,例如Ctritic(价值函数)、Clip操作、Reference模型以及较新的组相对策略优化 (GRPO)。为了使这些概念更加直观,我们打个比方:将强化学习的训练过程想象成小学考试场景。我们(正在训练的模型,Actor)就像努力取得高分的学生,给我们考试评分的老师就像奖励模型。
2025-03-03 14:55:46
91
原创 linux下,huggingface的默认下载路径和modelscope魔搭的默认下载路径
huggingface的模型默认下载路径。modelscope的模型默认下载路径。
2025-02-11 10:20:08
233
原创 BertTokenizerFast 和 BertTokenizer 的区别
都是用于对文本进行标记化的工具,主要用于处理和输入文本数据以供 BERT 模型使用。它们都属于 HuggingFace 的库。
2025-01-13 14:18:03
585
原创 huggingface/bert/transformer的模型默认下载路径以及自定义路径
如果由于某些原因您需要更改默认的缓存路径,可以通过设置环境变量来指定新的路径。import os。
2025-01-10 16:12:59
1231
原创 从预训练的BERT中提取Embedding
注意力掩码:下一步,要让模型理解[PAD]标记只是为了匹配标记的长度,而不是实际标记的一部分。我们将所有位置的注意力掩码值设置为1,将[PAD]标记的位置设置为0,如下所示。填充:为了保持所有标记的长度一致,我们将数据集中的所有句子的标记长度设为7。句子I loveParis的标记长度是5,为了使其长度为7,需要添加两个标记来填充,即[PAD]。ID 101表示标记[CLS],1045表示标记I,2293表示标记love,以此类推。添加标记:在开头添加[CLS]标记,在结尾添加[SEP]标记,如下所示。
2025-01-10 15:53:02
1237
原创 【已解决】tokenizer.chat_template is not set and no template argument was passed
在模型合并后,我只复制了tokenizer.json到合并模型的文件夹,没有把tokenizer_config.json也复制过去。
2024-08-16 20:53:00
4281
原创 python一行代码实现图的转置
给你一个下标从 0 开始、大小为 n x n 的整数矩阵 grid ,返回满足 Ri 行和 Cj 列相等的行列对 (Ri, Cj) 的数目。如果行和列以相同的顺序包含相同的元素(即相等的数组),则认为二者是相等的。
2023-07-06 23:51:21
956
原创 conda激活环境失败 Could not find conda environment ,查看envs后发现其实在里面
could not find conda environment
2022-07-21 20:34:02
7124
原创 spring mvc快速入门(一个超简单的demo)-超详细(ssm的课程笔记)
开发步骤1.导入SpringMVC相关坐标2.配置SpringMVC核心控制器DispathcerServlet3.创建Controller类和视图页面4.使用注解配置Controller类中业务方法的映射地址5.配置SpringMVC核心文件spring-mvc.xml6.客户端发起请求测试
2022-05-08 10:08:23
1285
原创 Cannot find reference ‘SparseFeat‘ in ‘inputs.py‘/ Cannot find reference ‘gen_data_set‘ in ‘preproce
问题在使用deepMatch的代码时,发现有有两处报错import pandas as pdfrom deepctr.inputs import SparseFeat, VarLenSparseFeatfrom preprocess import gen_data_set, gen_model_inputfrom sklearn.preprocessing import LabelEncoderfrom tensorflow.python.keras import backend as Kf
2022-03-15 14:56:15
622
原创 pandas 将多列拼接到一列后面,进行多列的横向或纵向合并
需求输入import pandas as pdlt = [["A", "F", "K"], ["B", "G", "L"], ["C", "H", "M"], ["D", "I", "N"], ["E", "J", "O"]]df = pd.DataFrame(lt, columns=["C1", "C2", "C3"])print(df) C1 C2 C30 A F K1 B G L2 C H M3 D I N4 E J O输出:仅一列拼接的时候横向 C10 A
2022-03-04 10:57:46
6173
4
原创 如何快速生成多类别的one-hot向量
Keraskeras 的版本是 2.3.1>>> import numpy as np>>> import keras>>> labels = np.random.randint(10, size=(10, 1))>>> labelsarray([[7], [1], [8], [9], [3], [1], [1], [6],
2022-02-11 19:53:38
876
原创 [已解决] jupyter notebook autopep8 Error loading library for python: ModuleNotFoundErrorNo module
文章目录问题解决问题和下图这个例子一样,每次打开 jupyter notebook 就会有这个弹框解决$ pip install autopep8参考链接:https://github.com/ipython-contrib/jupyter_contrib_nbextensions/issues/1300
2021-12-22 14:30:30
3057
原创 IDEA scala 修改默认的单行注释格式
文章目录问题解决方法问题IDEA 默认的 scala 单行注释会存在//顶格的问题。解决方法取消勾选 line comment at first column但此处还有一行,需要勾选 √ Add a space at comment start我当前的IDEA版本是2019.3 没有展示这一行,但是2021.2版本上是有的。...
2021-12-12 20:30:38
349
原创 python生成/移除emoji
安装emojipip install emoji生成emoji>> import emoji>> print(emoji.emojize('Python is :thumbs_up:'))Python is ????>> print(emoji.emojize('Python is :thumbsup:', use_aliases=True))Python is ????>> print(emoji.demojize('Python is ?
2021-11-22 19:28:09
1006
原创 【新版和旧版的方法都有】pycharm/IDEA/webstorm 取消 双击 shift 键出全局搜索
版本在 2021.2 之后1.找到“设置”windows快捷键: Ctrl + Alt + Smac 快捷键:Command+,2.搜索double,在 Disable double modifier key shortcuts 前面打√,然后点击Apply,再点击 OK ,即可生效版本在 2021.2 之前Press Ctrl+Shift+A to invoke the “Find Action…” dialog.Type “registry”.Choose “Registry…” f
2021-11-18 15:36:12
538
2
原创 java快速生成get/set方法
Student类package com.my.app.xxx;public class Student { private String name; private int age; private String grade;}两种方式生成get/set方法一、IDEA中安装插件 lombok
2021-10-14 15:55:22
10008
原创 python与hadoop/hdfs的交互,读取文件/下载/上传/删除
文章目录1.用 python 运行 command2.hdfs的相关命令ls:返回文件或目录的信息get:下载文件到本地put:从本地文件系统中复制单个或多个源路径到目标文件系统。也支持从标准输入中读取输入写入目标文件系统。copyFromLocal:限定从hdfs复制到本地copyToLocal:限定从本地复制到hdfsrm:删除hdfs上的文件,只删除非空目录和文件rm -r:递归删除hdfs上的文件,会删除目录test + 参数:检查文件是否存在1.用 python 运行 command# imp
2021-10-14 15:46:35
3019
转载 java stream 统计元素出现次数,并按次数高低进行输出
package com.my.app.stream;import java.util.LinkedHashMap;import java.util.List;import java.util.Map;import java.util.function.Function;import java.util.stream.Collectors;import java.util.stream.Stream;/** * Description 统计次数,并按次数高低进行输出 */public
2021-10-14 14:45:24
4915
原创 spark 的第一个程序 WordCount(详细注释版)
文章目录思路代码将每一个步骤的结果进行打印思路和代码来自 尚硅谷的spark教程思路代码package com.my.bigdata.sparkimport org.apache.spark.{SparkConf, SparkContext}/** * Description wordCount, 单词统计 */object WordCount { def main(args: Array[String]): Unit = { // Application //
2021-10-03 13:08:36
1143
3
原创 pandas DataFrame 根据某列的缺失值,新增一列,表示该列的值是否缺失
文章目录>>> import pandas as pd>>> import numpy as np>>> df = pd.DataFrame({"A":[1,2,3],"B":[2,3,np.nan]})>>> df A B0 1 2.01 2 3.02 3 NaN>>> df.B.isna() # B列的值为nan0 False1 False2 TrueName: B,
2021-09-08 22:25:30
336
原创 pandas df 某一列是列表 展开/筛选/拼接/取并集
文章目录需求示例展开:根据列表展开为多行筛选:将列表中含某个值的行,都筛选出来拼接:将列表拼接成字符串需求pandas df 的某一列是列表的情况下,进行的相关操作示例>>> import pandas as pd >>> df = pd.DataFrame({"A":[1, 2], "B":[["a", "b"], ["c", "d"]]}>>> df A B0 1 [a, b]1 2 [c, d]展开
2021-08-30 20:35:39
6420
4
原创 java 处理带空格的参数args
代码package com.my.app.xxxxx;/** * Description 测试参数带空格的情况 */public class SpaceTest { public static void main(String[] args) { if (args.length != 2) { return; } String s1 = args[0]; String s2 = args[1]; System.out.println("s
2021-06-22 17:44:25
2748
1
原创 jupyter notebook 如何指定虚拟环境
1.在终端上先启用环境$ conda activate py362.启用环境以后,再输入jupyter notebook3.在新打开的notebook页面,进行import,就可以使用py36环境下的包
2021-06-08 19:36:40
406
2
原创 java stream 将数据分组并在组内进行排序
例子将 lt 按布尔值分为了两组,一组字符串全是小写,一组字符串全是大写然后,每组内的字符串按长度进行排序代码package com.my.app.stream; // 此处为你自己的路径import java.util.Arrays;import java.util.List;import java.util.Map;import java.util.stream.Collectors;/** * Description 分组,并在组内进行排序 */public class G
2021-05-19 10:12:46
5620
原创 IDEA 跳转回上一次代码的位置 (可视化箭头和快捷键)
可视化箭头如下图所示的前后箭头,可以快速跳转到代码的前一个位置和后一个位置快捷键maccommand + [ 跳到上一个位置command + ] 跳到下一个位置windows / LinuxCtrl + [ 跳到上一个位置Ctrl + ] 跳到下一个位置...
2021-05-14 11:10:28
26843
2
原创 Jetbrain 如何使用教育邮箱激活
注册注册网址: https://account.jetbrains.com/login注册的时候,会往教育邮箱里发邮件,注意查收学生身份认证学生身份认证网址:https://www.jetbrains.com/shop/eform/students学生身份认证这里,也会往教育邮箱发邮件,注意查收激活Jetbrain旗下软件首先,找到软件内的 激活页面然后, Get license from 选中 JB Accout填入username或教育邮箱,以及密码,然后点击 Activate
2021-04-26 20:23:33
1913
原创 java/scala/python打印分割线 (字符串的自复制)
javaimport org.apache.commons.lang3.StringUtils;public class TestOperator { public static void main(String[] args) { System.out.println(StringUtils.repeat("-", 10)); }}scalascala> print("-" * 10)----------Python>>> print("-"
2021-04-26 17:57:02
614
原创 java stream 如何对齐
Preferences -> Editor -> Code Style -> Java -> Wrapping and Braces -> Chained method calls将Align when multiline 打钩
2021-03-30 11:29:20
341
原创 【已解决】MAC版IDEA 打开文件的快捷键 Ctrl+Shift+N 失效
问题:在学习IDEA使用教程的时候,发现 Ctrl+Shift+N 失效,并不能打开文件,反而出现的是在IDEA的快捷键设置里,查找 find file 这类的关键字,也没有结果。解决:其实这个快捷键,IDEA 放在了最显眼的位置当刚引入一个项目,或者关闭 IDEA 中所有打开的 tab 时,就出现了Shift+Command+O,即可按文件名进行文件的查找输入文件名,即可出现相应的文件名。如果在文件名之后,加上:15,代表直接跳转到这个文件的第15行,对于定位到bug出现的位置,非常有
2021-03-14 18:28:49
2853
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人