- 博客(24)
- 资源 (6)
- 收藏
- 关注
原创 DeepSeek-GRPO (PPO)
有两种状态转移方式确定的和不确定的R来自于采样on policy:采集数据和训练数据用的策略是一样的为了避免在好的局势下,所有动作概率都变大,坏的局势下,所有动作概率都减少,这会使得训练过程变幻,无法体现动作间的相对差异。因此减一个base,这个base也将训练得到,使得所有局势下都能体现相对回报使用采样采样多少呢。GAE全都要。
2025-10-23 22:24:56
480
原创 deepseek-v2 MLA(注意力机制、位置编码)
Q:问题,比如故事发生的时间是什么K:关键字:时间、日期V:值,包含这些关键字的句子信息注意力机制就是通过为输入序列的不同部分分配不同的权重,使模型能够再在生成输出的每一步都动态地、有选择性地关注输入中最相关的部分。
2025-10-10 20:26:47
735
原创 Peach fuzzer简单学习
Peach Fuzzer是一款基于模板生成的黑盒模糊测试工具,旨在帮助测试人员发现和利用软件程序中的漏洞和缺陷。它使用一种基于模型的方法,通过分析目标系统的协议、数据格式和行为规则来生成有效的测试用例。
2025-09-29 12:20:28
796
原创 SOME\IP
2011年宝马公司设计开发了一套中间件,实现以服务为导向的通信方式,能够大大减少网络负载以提高通信双方的效率,也可以满足未来车辆不断增长的通信需求。宝马将这种面向服务的通信方式叫做SOME\IP(Scalable service-Oriented MiddlewarE over IP),是一种运行在车载以太网协议栈基础上的中间件。当客户端需要来自服务器的数据时,它可由客户端使用 TCP 协议进行请求。如果服务器必须将数据传送给所有活动的订阅者,则可通过 UDP 协议传输。
2023-05-18 22:00:10
921
2
原创 车载以太网
同时,传统以太网一般使用RJ45连接器连接,而车载以太网并未指定特定的连接器,连接方式更为灵活小巧,能够大大减轻线束重量。其中以太网所有物理层的功能全部集中在一个称为“PHY”的模块中,它将以太网控制器以及物理介质连接在一起,并且通过一个标准化接口MII连接,同时PHY模块与底层介质通过MDI接口连接,以100BSASE-T1所示,如下图所示。在车载以太网领域,目前主流涉及到的应用协议主要有UDP-NM,DOIP,Some/IP,SD以及传统以太网需配合支持的ICMP,ARP,DHCP等协议。
2023-05-17 16:13:09
1125
1
原创 AFLNET aflfuzz.c fuzz_one函数阅读
1:主要功能是从queue中取出entry进行fuzz,成功返回0,跳过或退出的话返回1,关键功能是变异。2:整体流程。
2023-04-11 22:35:47
815
原创 vector初步学习
Vector(类模板,向量)类似数组,可以动态增长头文件实例化Vector产生一个数据元素是int的vector类可以像数组一样下标操作V.push_back(a);//加入最后v.pop_back()V.resize(l);//截断或补零V.size()
2021-01-12 17:34:32
209
物联网概念和发展历程哲学观点.docx
2020-07-28
分组密码des实现——c++
2019-03-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅