如何被动学习

在IT行业,很多人缺乏主动学习意识和习惯。文章指出可从两方面克服问题:一是减少身边诱惑,如关闭流量、禁用应用,空出时间逼迫自己学习;二是找到强迫自己学习的方式,包括找动力和逼迫自己,如定目标写文章、报名技术分享等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

突然有所感悟,由此记录下来。

 

其实当下的社会,很多人都没有主动学习的意识和习惯了,当然我自己也是。其实我也知道,学习对一个人是多么的重要,特别是在IT这个行业,技术日新月异,Android版本的发布,比自己学得都要快!想学习这个潜意识还是有的,但是往往都是三分钟热情,那么怎么克服这些问题呢?

 

可以从以下几个方面去入手:一是减少身边的诱惑、二是找到能强迫自己学习的方式

 

  •  减少身边的诱惑

 

很多时候不是我们不想去学习,而是真的没有时间去学习了。我们身边的诱惑太多了,这些诱惑占用了我们太多的时间。看看自己的手机上,是不是有一大堆的娱乐软件、新闻软件、聊天软件,每天我们在上面花费的时间远远大于每天我们学习的时间。刷抖音、刷头条、看视频、聊天、刷微博。。。,不知不觉间,几个小时就过去了,本来下班后的空余时间就那么几个小时,都是消耗到这方面了,即使这个时候想看会儿书,都快12点了,还是洗洗睡吧。这些应用本身设计的时候,就是抓住了人性的弱点,让使用者能够在这上面多呆一段时间,没有克制力的人,能够在上面无休止的刷下去。网络虽然给我们提供了便利,但也带来了诱惑,消耗了时间!

 

所以我们需要减少身边的诱惑,每天下班后,到了固定的时间,就把流量关了,或者用下载一个管理APP,在这个时间段,把这些应用全部禁用了。起初这会让人很焦虑,这个时候,你可以出去走走,跑跑步,或者运动一下,慢慢地就适应了,不会再感到焦虑。而这个时候,会多出一大段连续的时间,如果这个时候,在家里,很多人会不自觉的拿出书来翻翻、画画、弹吉他等等,因为真心很无聊。想想我们读小学,初中的时候,放学回到家里,能干什么呢?做作业,其实作业做完后,还有很多空余时间,那个时候没有手机,甚至有些家里连电视都没有,唯一能干的,就是给自己找点事儿做!看看意林、看看知音、看看名著等等,至少我是在那个时候,学习的毛笔字、画画、练习的钢笔字。

 

所以,减少身边的诱惑,空出时间,让自己无聊,逼迫自己去学习。

 

  • 找到强迫自己学习的方式

 

1) 「 找动力 」我觉得,学习不一定是按照先输入、再输出的顺序方式进行的,而是先给自己定目标,定需要完成的事情,先找到动力。比如想去学某门技术或一本书,如果只是计划自己每天看多少,学多少,可能几天后,就不会再看了,因为没有动力。其实可先定下来,自己要写哪些关于这方面的文章或者读后感,然后再去找对应书籍来看,因为当自己想要写这些文章,却不会的时候,这个时候,是最有动力的,未知,才能让人产生渴望。为什么在公司上班的时候,学技术很快,那是因为公司先给你定了目标,先给你报了BUG,报了问题,你是带着解决问题的心态去的,所以动力十足,也不会因为问题难,就放弃了。记得有次在公司,我在学习安卓系统的binder相关的知识,刚刚学,不知道怎么被老大知道了,就叫我周五搞一个关于binder技术的分享会,NND,后面几天,天天加班学习,找文章,看源码,回到家继续,还要写文档,虽然很苦,很累,最后有些binder底层驱动的知识没有搞定,但是在这么短的时间里几乎把binder都整了一个遍。

 

2) 「 逼迫一下自己 」 人要逼一下自己,才知道自己的潜力有多大。人的潜力是无穷的,对于学习方面的潜力也是一样的,置死地而后生往往会产生不一样的效果。如果要学习一门技术,其实可以主动的报名做技术分享,很多公司的部门有有技术分享会,这样就能逼迫自己去学习,去看技术文章。如果想学英语,是否可以花钱在网上报一门英语课程,这样如果自己没有去学习,就会感觉心痛。如果想看书,就去网上报一个关于阅读的班,这种会要求每天写阅读总结。你看现在的悦动圈,是不是就是先交钱,每天完成运动任务才能返还,这不就是一种强迫自己运动的一种方式么!找到或者创建一些外界条件,强迫自己学习!

 

以上只是我个人关于如何被动学习的观点,仅供参考,希望能对你们有所帮助!

 

 

 

### 被动学习中的时序差分方法 (TD Learning) #### TD Learning 的基本概念 时序差分(Temporal Difference, TD)学习是一种结合了动态规划和蒙特卡洛方法的优点的学习方式。它既不需要像动态规划那样依赖于环境模型,也不需要等待整个回合结束才能进行更新,因此具有更高的效率[^1]。 在被动学习中,智能体的目标是对给定策略的价值函数进行评估,而不是主动优化策略本身。在这种情况下,TD 方法的核心在于利用当前状态价值的估计值以及下一时刻的状态价值来逐步改进对当前状态价值的估计。这种机制使得 TD 学习能够在不完全经历完整回合的情况下实时调整其参数[^2]。 #### TD(0) 更新规则 对于状态价值函数 \( V(s) \),TD(0) 使用如下公式进行更新: \[ V(S_t) \leftarrow V(S_t) + \alpha [R_{t+1} + \gamma V(S_{t+1}) - V(S_t)] \] 其中: - \( S_t \) 表示时间步 \( t \) 上的状态, - \( R_{t+1} \) 是从状态 \( S_t \) 到达状态 \( S_{t+1} \) 所获得的即时奖励, - \( \gamma \) 是折扣因子,用于衡量未来奖励的重要性, - \( \alpha \) 是学习率,控制每次更新的步伐大小。 这一公式的含义是通过比较当前状态的实际回报与预期回报之间的差异(即 TD 错误),并据此修正状态价值函数的估计值[^3]。 #### 应用场景 TD 学习广泛应用于多种领域,尤其是在无法获取精确环境模型或者希望快速得到初步结果的情形下尤为有效。例如,在游戏 AI 开发过程中,可以通过观察玩家行为模式不断调整内部评价体系;又如金融交易模拟器设计时也可借助此类技术构建适应性强的风险管理框架[^4]。 ```python def td_learning_update(state_values, alpha, gamma, current_state, next_state, reward): """ Perform a single update step using the TD(0) algorithm. Parameters: state_values (dict): A dictionary mapping states to their estimated values. alpha (float): The learning rate. gamma (float): Discount factor for future rewards. current_state: Current observed state of the environment. next_state: State reached after taking an action from `current_state`. reward (float): Immediate reward received upon transitioning between states. Returns: None; updates are performed directly on input dictionaries/lists etc... """ # Compute target based off immediate reward & discounted estimate of successor's worthiness target = reward + gamma * state_values[next_state] # Update rule implementation via simple arithmetic operation w/learning-rate scaling term applied afterward too! delta_v = alpha*(target - state_values[current_state]) state_values[current_state] += delta_v ``` 问题
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值