- 博客(50)
- 收藏
- 关注
原创 【动手学深度学习】05时序差分算法
对于大部分强化学习现实场景(例如电子游戏或者一些复杂物理环境),其马尔可夫决策过程的状态转移概率是无法写出来的,也就无法直接进行动态规划。在这种情况下,智能体只能和环境进行交互,通过采样到的数据来学习,这类学习方法统称为。不同于动态规划算法,无模型的强化学习算法不需要事先知道环境的奖励函数和状态转移函数,而是直接使用和环境交互的过程中采样到的数据来学习。无模型强化学习算法中最经典的两大算法是 Sarsa 和 Q-learning,它们都是基于时序差分的强化学习算法。
2025-02-21 15:20:58
970
原创 【动手学深度学习】04动态规划算法
一个智能体从起点出发,避开悬崖行走,最终走到终点。如图所示,智能体的起点是左下角,终点是左上角,我们的目标是避开悬崖走到中断。智能体可以采取的行动有4种:上、下、左、右。如果智能体采取动作后触碰到边界墙壁则状态不发生改变,否则就会相应到达下一个状态。智能体每走一步的奖励是 −1,掉入悬崖的奖励是 −100。""" 悬崖漫步环境"""self.ncol = ncol # 定义网格世界的列self.nrow = nrow # 定义网格世界的行。
2025-02-18 12:26:04
864
原创 【动手学强化学习】03马尔可夫决策过程
马尔可夫决策过程始终贯穿强化学习,要学好强化学习,必须掌握马尔可夫决策过程的基础知识。与多臂老虎机不同,马尔可夫决策过程包含状态信息以及状态转移机制。
2025-02-15 22:34:46
1069
原创 【动手学强化学习】02多臂老虎机
强化学习关注的是在于环境交互中学习,是一种试错学习的范式。在正式进入强化学习之前,我们先来了解多臂老虎机问题。该问题也被看作简化版的强化学习,帮助我们更快地过度到强化学习阶段。有一个拥有K根拉杆的老虎机,拉动每根拉杆都有着对应奖励R,且这些奖励可以进行累加。在各根拉杆的奖励分布未知的情况下,从头开始尝试,在进行T步操作次数后,得到尽可能高的累计奖励。对于每个动作a,我们定义其期望奖励是Qa。是,至少存在一根拉杆,它的期望奖励不小于拉动其他任意一根拉杆,我们将该最优期望奖励表示为Q∗a。
2025-02-15 14:44:26
871
原创 【动手学强化学习】01初探强化学习
强化学习是机器通过与环境交互来实现目标的计算方法。智能体与环境的交互方式如图所示,在每一轮交互中,智能体根据感知状态经过自身计算给出本轮动作,将其作用于环境;环境得到智能体动作后,产生相应的即时奖励信号并发生相应的状态转移。智能体则在下一轮交互中感知到新的环境状态,以此类推。环境:与有监督学习不同,强化学习中的环境是动态的随机过程,受当前环境状态及智能体决策动作影响。目标:即决策目标,智能体与环境进行交互时,环境会产生相应的奖励信号。这个奖励信号一般是诠释当前状态或动作的好坏的及时反馈信号。
2025-02-14 17:22:28
1012
原创 NAT虚拟机SSH连接:轻松实现远程访问
NAT是“Network Address Translation”的缩写,中文意思是“网络地址转换”,它允许一个整体机构以一个公用IP(Internet Protocol)地址出现在Internet上。顾名思义,它是一种把内部私有网络地址(IP地址)翻译成合法网络IP地址的技术。它的作用是指向外暴露一个ip地址,即宿主机ip地址。但这也导致了一个问题:远程电脑无法访问这些虚拟机。解决这个问题的方法有很多,比如 ssh 跳转、端口转发、更改网络模式等等。我认为最简单最普遍的是端口转发。
2024-11-26 08:30:00
693
原创 01 Vim 编辑器的简单使用
Vim是从 vi 发展出来的一个文本编辑器,vi(visual editor)是unix/linux操作系统中最经典的文本编辑器,vim原来的名字叫做 vi imitation(vi模拟器),目的是完全复制vi的功能,为开源和在类unix系统中移植而生,在成功被移植到unix之后名字变成了vi improved(vi改进版)。1vim完全摆脱了对于鼠标的依赖,只使用键盘便可以完成对文件的各种操作。
2024-09-19 08:00:00
1260
原创 【算法随想录04】KMP 字符串匹配算法
给定一个文本 t 和一个字符串 s,我们尝试找到并展示 s 在 t 中的所有出现(occurrence)。这是字符串模式匹配经典算法。
2024-09-15 21:28:52
406
原创 【PyTorch快速入门教程】03 PyTorch基础知识
在PyTorch中,最小的计算单元是张量(tensor)。因此关于张量的学习还是至关重要的。通过本章节学习,希望你对张量有一个更清晰的了解。
2024-08-22 15:22:50
979
1
原创 【PyTorch快速入门教程】01 Pytorch安装及配置
PyTorch教程第一节,最为保姆级的Pytorch安装博客。帮你从 0 开始配置好一个PyTorch环境。
2024-07-16 15:21:25
1328
原创 校园网自动登录脚本【Windows 10】
如果要使用校园网,必须打开浏览器输入校园网地址,之后输入账号密码登录。实验室电脑绝大多数情况下应该处于联网状态,但不幸的是,我深会限制校园网客户端数量,一旦有新设备接入,很可能实验室电脑就会断网。这时,你又要重新打开校园网网址,输入账号密码…此刻,我就在想 windows 能不能实现自动登录校园网🤔。
2024-07-16 00:14:58
1481
原创 url订阅地址更新失败
当我们花钱买了一个月的飞机票,但有时会遇到机场检票失败情况。发消息给客服,半天不回,你心里很是着急。出现机场检票失败常常是由于飞机票时间不对,或者机票被墙。
2024-07-15 15:18:58
1766
1
原创 Distributed Artificial Intelligence Empowered by End-Edge-Cloud Computing: A Survey
这是22年关于分布式AI的综述论文。对于刚刚进行调研的我来说,这篇论文很好地整理了我的思维结构。
2024-05-31 21:18:28
833
原创 Syncthing 实现实时本地与远程服务器代码同步
近来我频繁使用服务器来跑项目,使用 scp 不断在本地和远程之间传文件,这搞得我有点心烦。因此,我在想有没有办法可以实现自动代码同步,这不,idea有啦。
2024-05-31 14:53:11
920
原创 AttributeError: module ‘torch.utils._pytree‘ has no attribute ‘register_pytree_node‘.
跟着教程走了一遍,一模一样的步骤,就是报错。
2024-05-06 17:07:09
5572
1
原创 ShadowFormer:Global Context Helps Images Shadow Removal
本论文主要是对图像阴影去除工作的研究。现有工作都是针对于局部阴影或阴影部分分别进行优化,这就会导致在分界线上有明显不同(光照不一致,伪影情况)。因此,本文提出一种全局优化算法shandowFormer来解决分界不一致问题。
2024-04-18 12:48:17
1215
原创 【大模型服务】01EdgeFM: Leveraging Foundation Model for Open-set Learning on the Edge
该文发表在 SenSys’23(CCF B) 上,作者是来自港中文的鄢振宇。这是一篇关于云端协同的文章,主要解决边缘设备深度模型的泛化性不足问题,实现 Open-set Learning。
2024-03-19 10:54:41
1130
原创 【算法随想录03】相交链表
第一种,遍历两个链表,计算出节点数,然后将节点数多的链表向后平移;第二种,定义两个指针,分别先后遍历两个链表。主要难点在于如何进行节点之间的对应。两条链表长度不定长,如何找到需要对比的节点至关重要。我们从后往前看,我们需要对比的节点有什么特点。解决这个问题,有两种方案。这就是我们的突破口。
2024-02-15 15:56:08
637
2
原创 【算法随想录02】环形链表 ||
在第一节的时候,我们使用快慢指针解决了链表中存在环的问题。现在我们考虑怎么可以找到开始入环的第一个节点。设慢指针走了k步,那么快指针走了2*k步。如果二者相遇,该坏上节点个数一定是k的公约数。此时我们将慢指针调回头节点,下一次相遇的位置就是入点位置。
2024-02-15 15:30:55
540
原创 【论文阅读】Automated Runtime-Aware Scheduling for Multi-Tenant DNN Inference on GPU
该论文发布在 ICCAD’21 会议。该会议是EDA领域的顶级会议。
2024-01-23 22:04:36
1513
1
原创 【python自动化系列01】Openpyxl,操作Excel文件的利器
如果要批量操作Excel文件,使用最广泛的是 Openpyxl 库。这个库集成了Excel的所有操作,从创建Excel、保存Excel到设置Excel单元格字体、颜色都可以实现。下面开始学习 Openpyxl 的简单使用吧!!!
2024-01-23 21:33:33
911
原创 分布式文件系统代码详解
注册dataserver信息,初始化一个nameserver客户端实例,远程调用 RegisterDataServer 方法,将自己的host和port注册。获取request的headers,提取出jwt,调用stub.VerifyJWT,验证是否成功登录。若成功登录,则返回f’{self.data_dir}{request.path}'路径下的文件列表。从元数据中获取JWT,验证JWT。
2023-12-22 16:46:10
1021
原创 【论文阅读】Resource Allocation for Text Semantic Communications
语义通信在传输可靠性方面有着天然优势,而其中的资源分配更是保证语义传输可靠性和通信效率的关键所在,但目前还没有研究者探索该领域。为了填补这一空白,我们研究了语义领域的频谱效率,并重新思考语义感知资源分配问题。具体来说,以文本语义通信为例,首次定义了语义谱效率(S-SE),并用于根据通道分配和传输的语义符号的数量来优化资源分配。此外,为了公平地比较语义通信系统和传统通信系统,开发了一种变换方法,将传统的基于比特的频谱效率转换为S-SE。
2023-12-22 16:44:06
2178
原创 【无标题】
由于很多liunx系统都不支持so_reuseport 所以安装grpcio的时候需要按照上面的这种模式进行编译安装,时间会稍长(多进程监听参数)
2023-12-20 12:05:50
428
原创 安装 selenium 及配置 edge 浏览器驱动
上图中看到我的Edge版本是 120.0.2210.61。将其解压到python解释器目录并重命名为。将压缩包解压到一个指定路径下。访问百度,看看能否正常打开。安装浏览器驱动时注意版本保持一致。
2023-12-18 14:53:12
43725
4
原创 Linux 用户管理相关命令
Liunx最大的特点是一切皆文件,系统会根据用户身份决定该用户对文件的操作是否有效。本文将对用户管理命令进行深入浅出的分析,希望对大家有帮助,哈哈。
2023-11-23 17:29:54
190
原创 使用 LVM 将多个硬盘合并,解决 /home 目录容量不足问题
你是否有这样一个难题,由于在安装系统时仅仅给了/home目录100G硬盘大小,但过了一段时间,发现“哎,100G不够用了,当初怎么不多分点呢。”你当然知道重装系统就能解决这个问题,但你的数据就都丢了呀。这时,刚好你还有几块没用的硬盘,于是你就想:可不可以不用重装系统,就可以扩容 /home 目录呢?
2023-11-08 21:38:42
3041
3
原创 【VScode报错】改变服务器ip后,重新登录报错:Permission denied, please try again.
原因:该报错是由于没有服务器端的.vscode-server未及时更新导致。如果你在VScode中遇到不停输入密码或者报错。
2023-11-04 11:35:55
1976
1
原创 docker 阿里云镜像配置
在阿里云上搜索镜像加速器,点击第一个点击镜像加速器他给出了加速器地址和如何安装,直接复制下面命令即可。查看是否成功配置。
2023-11-02 17:23:52
130
1
原创 最良心的 Docker 安装教程【Ubuntu 20.04】
我相信能点进来的同学应该对 Docker 有所了解。Docker 是用于环境隔离的一种工具,在学校实验室里,一个服务器肯定会有很多人用,底层环境也会有很多人写写改改,说不定哪天你代码就突然不能运行了,哈哈哈。为了防止这种情况的发生,我们可以使用docker来。对于docker的原理,大家去找别的大佬博客看看吧。废话不多说,直接开干!
2023-11-01 16:43:48
386
1
原创 windows台式机用作服务器并实现ssh远程连接
服务器的系统大多都是 Linux 系统,但也有少部分同学使用 Win10 系统的服务器(比如我),那如何远程访问本地win10台式机呢,这就要用到今天的主角:SSH。安装完成之后,需要进行初始化配置,以管理员身份运行PowerShell 。设置服务自动启动确认一下防火墙是否是放开如果是放开的,结果会提示 。以下所有操作均在 PowerShell 中进行。允许新用户使用 访问以管理员身份编辑 %programdata%\ssh\sshd_config 这个文件,添加一下内容并保存。
2023-10-30 21:09:34
4204
6
原创 GPU 工作原理
随着 LLM 的不断发展,算力成为一个非常热门的话题,尤其在前段时间4090禁止出售给中国的时候。说到算力,不免要讨论一下 GPU。虽然大家都用着 GPU ,但真正了解 GPU 工作原理的人并不多。本篇文章将会从 GPU 底层架构出发告诉你 GPU 是如何进行并行计算的。
2023-10-27 21:16:11
536
3
自制论文ppt,论文题目:INFaaS: Automated Model-less Inference Serving
2023-10-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人