- 博客(28)
- 收藏
- 关注
原创 Daily AI 20250403 (深度强化学习算法)
为解决传统Q-learning在高维状态空间中无法保存完整Q表的问题,深度Q网络(Deep Q-Network,DQN)是将深度学习方法与Q-learning相结合,通过学习参数。,争取下次做得更好.开始训练时,演员随机表演,评论员随机打分.通过不断的学习,评论员的评分越来越准,演员的动作越来越好。,来调整自己的打分标准,使得自己的评分更接近环境的真实回报.演员则跟据评论员的打分,调整自己的策略。策略搜索和基于值函数的方法相比,策略搜索可以不需要值函数,,对当前策略的值函数进行估计,即评估演员的好坏。
2025-04-07 03:38:09
681
原创 Daily AI 20250318 (深度强化学习算法)
参考资料:神经网络与深度学习如上篇文章所述,在强化学习中,一般需建模:策略π(a∣s)\pi(a \mid s)π(a∣s)状态值函数Vπ(s)=Eτ∼p(τ)[∑t=0T−1γtrt+1∣τs0=s]V^\pi(s)=\mathbb{E}_{\tau \sim p(\tau)}\left[\sum_{t=0}^{T-1} \gamma^t r_{t+1} \mid \tau_{s_0}=s\right]Vπ(s)=Eτ∼p(τ)[∑t=0T−1γtrt+1∣τs0=s]状态-动作值函数Qπ
2025-04-03 15:34:04
758
原创 Daily AI 20250317 (强化学习基础)
智能体与环境进行交互将智能体与环境的交互看作离散的时间序列.智能体从感知到的初始环境s0s_0s0开始,然后决定做一个相应的动作a0a_0a0,环境相应地发生改变到新的状态s1s_1s1,并反馈给智能体一个即时奖励r1r_1r1,然后智能体又根据状态s1s_1s1做一个动作a1a_1a1,环境相应改变为s2s_2s2,并反馈奖励r2r_2r2.这样的交互可以一直进行下去,其中rtrst−1a。
2025-03-17 01:49:39
652
原创 Daily AI 20250308
批量大小越大,随机梯度的方差越小,引入的噪声也越小,训练也越稳定,因此可以设置较大的学习率。在随机(小批量)梯度下降法中,如果每次选取样本数量比较小,损失会呈现震荡的方式下降。周期性学习率调整可以使得梯度下降法在优化过程中跳出尖锐的局部极小值,虽然会短期内会损害优化过程,但最终会收敛到更加理想的局部极小值。在迭代后期,梯度方向会不一致,在收敛值附近震荡,动量法会起到减速作用,增加稳定性。,必须先对样本进行预处理,将各个维度的特征归一化到同一个取值区间,并且消除不同特征之间的相关性,才能获得比较理想的结果。
2025-03-11 18:07:30
635
原创 CVPR2023论文学习_Gradient Norm Aware Minimization Seeks First-Order Flatness and Improves Generalization
CVPR2023论文学习:Gradient Norm Aware Minimization Seeks First-Order Flatness and Improves Generalization
2024-07-05 20:51:53
849
原创 TCOM论文学习_Optimal Adaptive Power Control for OTA-FEEL Under Fading Channels
IEEE TCom论文学习,文章研究了Over-the-air Federated Edge Learning场景下的最优功率控制策略
2024-05-29 02:22:40
423
原创 Random Sampling (with/without replacement) & Random Shuffling
random sampling with/without replacement, random shuffling
2024-05-23 11:07:11
1034
原创 ICML2023论文学习_Dynamic Regularized SAM in FL: Approaching Global Consistency and Smooth Landscape
论文学习:Dynamic Regularized Sharpness Aware Minimization in Federated Learning: Approaching Global Consistency and Smooth Landscape
2024-04-17 16:44:16
922
原创 FedAvg源码学习
本文旨在对FedAvg源码进行注释,以此实现FedAvg算法。同时对代码中涉及到的一些函数作了补充,并给出了参考文章,最后附上算法的仿真结果以供参考。
2021-10-11 21:20:24
4798
23
原创 字节跳动后端面试记录
笔者在寒假经历了东看看西看看的无效学习后,深知自己的水平着实不够看,实习经历近乎为零,这学期开始便开始了一系列的补救计划,虽然收效甚微,但至少还是让自己明确了一点点方向,不至于一直摸着石头过河。笔者一个通信工程的菜鸡当时投字节的后端开发并被通知面试属实是无知且无畏之举,过几天还是得找找符合目前自身定位的实习并看看能不能找到内推。闲话少叙,收到HR的电话后属实有些意外(当时因为赖床还是我主动回拨的),y1s1自己确实也是抱着增加经验的目的比较放松的参加这场面试的(因为确实是菜),笔者目前对于后端所掌握的知识
2021-04-15 01:48:20
864
2
原创 LeetCode2021.3.25-132模式
O(n^3)的解法:(垃圾解法)# class Solution(object):# def find132pattern(self, nums):# """# :type nums: List[int]# :rtype: bool# """# for forwardcount in range(len(nums)):# for lattercount in range(forwa
2021-03-25 16:42:17
118
1
原创 LeetCode2021.3.17-各位相加
递归的简单应用,之后补上好点的代码。# 给定一个非负整数 num,反复将各个位上的数字相加,直到结果为一位数。# 示例:# 输入: 38# 输出: 2# 解释: 各位相加的过程为:3 + 8 = 11, 1 + 1 = 2。 由于2 是一位数,所以返回 2。class Solution(object): def addDigits(self, num): """ :type num: int :rtype: int """
2021-03-17 19:59:06
150
原创 2021.3.13 栈学习
# 思路:# 1.中缀表达式转换为全括号形式# 2.将所有的操作符移动到子表达式所在的左括号(前缀)或者右括号(后缀)处并替代之# 3.再删除所有的括号# ❖在中缀表达式转换为后缀形式的处理过程中,操作符比操作数要晚输出# 所以在扫描到对应的第二个操作数之前,需要把操作符先保存起来(栈)# ❖而这些暂存的操作符,由于优先级的规则,还有可能要反转次序输出。# 在A+B*C中,+虽然先出现,但优先级比后面这个*要低,所以它要等*处理完后,才能再处理。# ❖这种反转特性,使得我们考虑用栈来保存
2021-03-13 17:32:42
123
原创 LeetCode2021.3.11-括号匹配
括号匹配def isValid(s): """ :type s: str :rtype: bool """ stack = [] ftype1 = '(' ftype2 = '[' ftype3 = '{' btype1 = ')' btype2 = ']' btype3 = '}' for ele in s: if ele in '([{': stack.append
2021-03-11 22:17:14
120
原创 LeetCode2021.3.11-回文数
# 给你一个整数 x ,如果 x 是一个回文整数,返回 true ;否则,返回 false 。# 回文数是指正序(从左向右)和倒序(从右向左)读都是一样的整数。例如,121 是回文,而 123 不是。# def isPalindrome(x):# """# :type x: int# :rtype: bool# """# if x < 0:# return False# else:# if str(x)
2021-03-11 20:39:24
118
原创 LeetCode2021.3.10
"""给定一个整数数组 nums和一个整数目标值 target,请你在该数组中找出 和为目标值的那两个整数,并返回它们的数组下标。你可以假设每种输入只会对应一个答案。但是,数组中同一个元素不能使用两遍。你可以按任意顺序返回答案"""def twoSum(nums, target): stack = [] for i in range(len(nums)): for j in range(i + 1, len(nums) + 1): if j
2021-03-10 21:12:32
122
1
原创 LeetCode2021.3.9
2020.3.9-1047. 删除字符串中的所有相邻重复项"""给出由小写字母组成的字符串S,重复项删除操作会选择两个相邻且相同的字母,并删除它们。在 S 上反复执行重复项删除操作,直到无法继续删除。在完成所有重复项删除操作后返回最终的字符串。答案保证唯一。输入:"abbaca"输出:"ca""""def deleterepeatstr(a_str): final_list = [] for element in a_str: if final_list
2021-03-10 00:19:41
108
1
原创 Python基础知识复习
花了一周把之前Python基础知识复习了一下,后续还会进行一些补充。# import sys""" Python的sys模块提供访问由解释器使用或维护的变量的接口,并提供了一些函数用来和解释器进行交互, 操控Python的运行时环境。 """from fractions import Fractionimport randomimport mathimport osimport stringimport reimport pythonds""" pycharm中 选中行 ctrl
2021-03-05 18:47:40
397
2
原创 Python面向对象
根据不怕猫的耗子A的文章把Python的类回顾了一下。# 类# object-oriented programming# 把对象作为程序的基本单元,一个对象包含数据和操作数据的函数"""在Python中,所有数据类型都被视为对象,也可以自定义对象。自定义数据类型就是面向对象中类的概念""""""面向对象术语简介1、类(Class): 用来描述具有相同的属性和方法的对象的集合。它定义了该集合中每个对象所共有的属性和方法。对象是类的实例2、方法:类中定义的函数3、类变量(属性):
2021-03-01 22:26:03
244
6
原创 Python2020.08学习笔记
Python2020.08学习笔记欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会带来全新的写作体验;在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择
2021-01-18 19:52:20
245
2
原创 Pythonfdu学习
isinstance(object,class)用来判断object是否是指定类型–isinstance(3,int)标识符对大小写敏感整数可以为任意大的数值c.real c.imag c.ocnjuate(返回共轭复数)整除 // 浮点除法/ 取余%比较运算符: 内置数学函数:...
2020-11-15 22:55:51
902
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人