写给MatheMagician读者的第5封新年来信——暨2023年终总结与感悟

原创于 2024-01-01 10:08:17 发布 · 1k 阅读

14 ·

CC 4.0 BY-SA版权

早点关注我，精彩不错过！

亲爱的MatheMagician读者们：

新年快乐！

转眼2023就要结束了，也意味着MatheMagician的周更计划进入到第7个年头，我的十年写作计划竟然不知不觉中已完成一半。中途虽然一度有文章危机，但腾出时间缓过神来以后发现，10年可能都不够用。

感谢你，一位不知从何时起关注MatheMagician的读者的支持，祝愿我们能一起在思考的陪伴下，收获当下，赢得未来！

年终来信的传统源自2020年的新年，彼时我们已创刊1年有余，文章体系成型，既是总结，也是汇报，一开始主要是文章回顾为主；然后2022的第3封信开始，因为真的有感而发，加入了个人在工作、生活和追求中的思考，相关内容请戳：

写给MatheMagician读者的第4封新年来信——暨2022年终总结与感悟

写给MatheMagician读者的第三封新年来信——暨年终总结与感悟

写给MatheMagician读者的新年来信2

写给MatheMagician读者的新年来信

其中，《写给MatheMagician读者的第三封新年来信——暨年终总结与感悟》是在202106时思维突变，开始用博弈论建模社会以及学会做更大的事（包括和小事的区别以及项目树、工序图和ROI工具）的总结；《写给MatheMagician读者的第4封新年来信——暨2022年终总结与感悟》是202206起在工作之余逐渐把这些想法迁移到生活和追求中的实践感悟（珍惜状态、注重反思、接受局限），看来每年都是年中开始有突破。

而2023年从年初孩子出生以来，对我的生活内容和方式带来了不小的冲击，越来越多需要决策和执行的事情，带来了经济和精神压力，也会随时影响情绪，反过来影响做事的水平，这对我作为一个新晋父亲是不小的挑战，尤其是刚出生育儿假那两周，没有睡眠的日子简直崩溃。

好在有前面2年入世的积累，在事情的推动和经验的积累后，在5月初，我正式汇总了以前各个零散的推进项目的表格，启动了名为“人生”的总项目。我把事情分为生活、追求和工作，以及内部的各个子项，把整个生命都纳入了一个DAG的依赖图中管理，每个项目也按照工序图推进。

谁都知道自顶向下是最干净极致简单的思维方式，可面对人生这样复杂的事，哪个少年能一次构建清楚呢，中途重构重组也是最不坏的方法了，好在这个改变取得了阶段性成果，并依旧可可以继续迭代。于是，在迫切的人生各方面压力和我尽量一直保持理性的思维的交互下，本年度的主题便是：深度实践。即把2021恍然大悟的博弈决策理论结合做大事的方法，在2022的边试边做的探索和清空内心陈年污垢后，在2023一整年形成了全局大规模的实施。其中甚至一度在探测到如此极致，几乎做了一场要把自己当作机器智能体的代码级别的实验。

可能一般人并受不了，但我的内心告诉我，这样的实验和结果都让我异常兴奋，无论对外关系还是内心的舒适和满足。我开心于要用心聆听自己的声音，希望你也能。

下面，就阶段总结一下2023实践的结果和自底向上逻辑思路的两点抽象和总结。

从人生梦想落地到何时去哪买葱

可能大家初高中时都制定过学习计划，排得满满当当，心无旁骛，完美无缺，往往还真能执行下来并且获得不错的结果。而到大学以后，发现那样的计划再也无法执行，不是今天宿舍有人请客耽误了晚自习，就是晚上碰见个魔术朋友多聊了两小时交不上明天的作业了。有人把这归结为大学生的自制力变差，目标感不强了，松懈后才导致如此。

但这并非真相，而是封闭纯净的环境逐渐打开，要做的事情逐渐变得复杂多变，原来的学习工作模式早就不适应新的环境了。而到了工作以后更是如此，如果没有再多几辈子或环境的突变，这基本上是面临的终极难度级别了。

不过当年的迷茫也正常。按照现在的视角看，就是既没有足够明确的目标理想，也没有达成达成理想的成熟方法论。是大家一般都在混乱中跌跌撞撞，在一个不高的水平上拼点原始智力，和拼体力无异。

大学毕业已近9年，有幸在当下很安心地习得了这一套从理论到实践，能够最大化每个人的人生价值的方法，并还会在实践中继续优化框架和完善细节。接下来，我简单介绍一下我的这套方法，我希望不断迭代它以优化我的人生，也希望能和你一起。

宏观上，以我今年开启的“人生”项目为例，分为DAG图和项目树。其项目DAG图（原来本叫项目树，发现DAG结构才完整，故优化，原项目树在后面执行时使用）中，我在第一层把它拆分为了：生活、追求和工作。生活自然包括了老婆孩子等（好像我暂时还真缺乏比如要去打卡多少个名胜古迹这类的个人生活追求，不强求），追求就是数学和魔术，工作包括各段工作经历组成的工作生涯以及为工作的技术学习等的能力积累，这些是第二层。第三层就都是具体的项目了，即接着递归地作为一个子项目，按同样的方式执行。

注意这个DAG图是动态存在的，当下每个时刻拿到的都是快照。即一般在开启一个项目时会有个初稿设想（最开始还是2021年底在微信做sug的时候习得的方法论），随着时间推移，新的信息、分析的深入、想法的改变，事情的完结，都会改变这个结构。可能是从属关系变了，增删节点等等，都可以以git式的来迭代。

当然，构建这个图本质上是为了方便管理和分析，复杂性和精确性有矛盾的时候需要根据实践情况权衡。有时一件事的执行可能在多个项目中都有关系，也需要取舍是都记录还是取其中主要的，这些不过是口径罢了。人生的积累还是由具体做的事决定的，切忌过度陷入完美主义，反而浪费了时间。而时间是让一切资源和目标有效的前提，是最重要的因素。

这些子项目中，足够复杂需要单独管理和递归下去的子项目（比如人生项目中的所有项目都是这样单独推进的子项目）是另外开目录和项目结构管理的，而不太复杂的就直接在当前层的执行记录中记录实施了。

下面说到执行层的项目树。一般也用表格记录，其一行是一个项目，每个项目落在一个由项目DAG图删减边后获得的一颗树的叶子上，这棵树（这才是项目树）刚好也是整个项目资料的存储目录树，也是人脑索引的重要索引路径，互相对应。如果过于复杂就递归到单独子项执行，否则就直接继续拆解为项目内的事项，直到结构稳定的事件，逐个按工序图结构推进和记录。

其实我的人生项目的结构是很简单清晰的。项目树就宏观目标分块层和中级主题层，第3层就是比较明确的执行项目了，而且这些项目都是要递归下去的子项目。而下面的子项目虽然五花八门，但基本也不再递归了，保持视觉和处理上的简明性。所以，这里项目和子项目，是否展开虽然很随意但不是随便乱来的，还是得基于最优效率的原则。即，项目管理工具是为了让项目推进清晰而高效的，不使用的效率一般比较低，但如果因为工具的使用反而降低了效率，那就仍然得不偿失了。

一个项目的静态结构，或者说最新快照就是由如上描述的DAG和树结构构成，其中项目可以在图上递归为子图，直到简单到在本层管理，项目内则是拆解的基本事项了。整个结构可以不断调整到最新的结构，不过git下记录的历史也有一定参考和积累价值，就看能不能积分了。

好了，这一切都是立项之初的设想，是后续推进的前提。那如何高效最优地实地推进呢？

经过这一年的实践，发现这一点上还不够成熟，走了不少弯路，这里阶段性总结和展望一下。

首先，事情的驱动方式有周期/例行驱动和事件驱动。周期驱动是以标准尺度的人类规定时间作为执行事项和复盘项目的驱动动因，比如以周和月为单位整理宝宝的照片、交房租等，又或者是来定期复盘每个子项目的执行情况，制定新周期的计划。事件驱动的动因则是外部环境或自己思考得到事件想法，然后决定实施：前者来源于因未知而随机的因素，可能仅能预判分布或干脆在规划的一角之外，而后者来源于自己大脑思考后的确定或改进策略后的结果。事件驱动倒不一定是单次的，比如宝宝疫苗事项，基本上是这一次做完，才知道下一次什么时候做，这就是典型的多次事件驱动，也基本是全被动的，决策空间很小。而一般的比如什么时候发现家里没葱吃了要买，尿布快用完了下个单等，就属于懒事件驱动，单次有效。这倒是没什么不好，因为提前规划无法精确确定什么时候吃完，不够吃的信号则才是最准确的，前提是仍然是定时不定时地以平均半天一次的速度开冰箱检查了，事件才驱动得起来，这个潜在的周期驱动得粒度也足够。唯一的损失只是紧急购买无法使用足够的优惠券，所以理论上也有个到底何时买葱的平衡的问题，之所以很多家庭不会考虑这么细是因为，怎么胡来基本也不会饿肚子，做到极致也不能省太多钱，而花费的精力可不止。

当然我去思考这些要是真的只是为了买根葱那我才是愚蠢的，我相信这些小事可以以小见大，为将来的大事做准备。

另外，每件事项根据其重要、复杂、紧急的程度，以及内外界依赖与否，需要选择合适的驱动方式，才能使得项目能够在复杂的环境中以最高效的方式滚起来。如果严重依赖外界条件，比如预约的面试时间、见朋友等，那就是典型的定时任务，事件驱动。既然有外界信用压力，一般会比较重要；这些一般不会直接很复杂，定时了所以说不上紧急。

而这些事件有的还附着着对应的准备工作，比如面试准备，安排朋友游玩的计划等，当然一般的项目开发也是类似的，只不过不一定有预先规定的deadline，而是推进中慢慢决策和浮现。这些的重要程度在自己内心判断，复杂则需要拆解清楚事项的子事项和依赖关系，制定好微操策略和规划，考虑进去目标函数以及少量外界依赖等风险，来达成策略的最优。这种就适合周期驱动用以辅助平常的事件驱动，只是这种不像依赖外界的事项，一般没有明确的完成时间或deadline，是自我驱动来的，只是越快越好，不同事项优先级也不同，快到好的斜率也有区别。因为执行时需要陷入细节，思考驱动策略时可能比较局部；而随着情况变化，一定时候需要站在宏观层面制定策略和调整。因为能力有限和项目的复杂性，无法随时准确地判断什么时候该跳出来了。因此根据变化快慢制定的周或月度复盘就十分有必要了，工作中的周报制度就是典型的实践。这倒不是说有了周报就不在周中做决策了，不需要随时的事件驱动了。而是加上这个周期任务，来辅助事件驱动的不规律和不稳定问题，以更好地把控状态情况。

而依赖内部条件的事指的是那种依赖大脑灵感产生的艺术创作类工作，绘画、唱歌、写文章、写代码等都是。重不重要看你内心和外在收益的多少；其复杂性体现在不可控性，转瞬即逝；没法紧急，如果落入马上要交稿的紧急情况，也很难保证质量。这种事项基本没法驱动，而是要在舒服，满足的慢生活状态中（反过来极致的痛苦也行，但我想没人真的愿意，都是迫不得已），自由探索和思考，这几乎是我们想多有灵感唯一的方式。那就多给自己宽松空闲的时间呗，剩下的就只能靠上帝掷骰子了。不过像工作一样辅助以周期复盘是可以的，还可以帮助整理自己思路所到之处和历史，去简要自我复盘而不是约束，这倒是和工作的周报有点像，只是对产出目标没有那么严格的要求了，只能给个方向。

剩下没有太多内外依赖的事项，除了经常附着在依赖外界事项的准备和项目开发类事项以外，一般就是一些不重要，也不复杂不紧急的杂事了。比如今天邻居说明天来借把梯子记得在家开门；后天美团优惠券到期，记得把该买的买了；还有前面提到的买葱的事。这些统一称为日常琐事，都很难也没必要事事归类，以最高效的方式记好待办提醒，以随时得空就事件驱动掉或每日（处理当日）/周（整理落库）结合的周期驱动处理就好了，驱动方式仍然按照事情本身的实际重要、复杂和紧急程度来，同时考虑内外部依赖情况。

注意这里重要性在生活中可以简要区分为要做还是不用做，就没必要像工作那样区分级别好几档了。这个在周度复盘的时候制定策略每次重新调整，该记录记录，该删减删减，要做的事，就按原定要求做完，做不完下周再调整计划，动态往复。倒是有些搁置也不怕，只是堆积会造成实际的烂尾，和复盘效率越来越低，需要动态权衡后调整改进。删减要慎重，一旦删了，基本也意味着，这事彻底从记忆中消失，不会再做了，能否再重现，要考脑子能不能再受驱动想起来了。而如果是项目中原本认为重要却迟迟因为没有deadline不见进展的话，那一定是复盘时候出现了问题，也要从广度和精细度上好好优化改进。

还有的事，当下还不是具体的创作类，却可能连具体执行时间或范围都给不出来。这倒不是不重要，可能是还没规划好，还在头脑风暴阶段，也应该当作创作类处理，而记录这些灵感的笔记也是一种加深记忆，让自己安心，不错过的措施。上帝怎么掷色子不知道，但是扔下来的我千万不能丢了。

讲完了事项依据其特点选择驱动方式的一般方法后，我们可以来聊项目具体的时间规划问题了。这本质上还是个决策优化问题，即在给定的目标函数下，如何利用好有限的时间资源，达成人生目标的最优。

这依赖于前面DAG图确定时所对应的在内心中的人生目标中各个事项的比重以及汇总整体状态加和的内心评价。比如在都能有可行解大概率达成的情况下，你是要90分的工作和10分的家庭，还是各40分？再明确一点，所谓人生目标，或其下任何一个子项目的目标，都必须是一个目标评价函数。即，哪些因子会影响你对你这个项目目标达成情况的评价，以及这些因子如何相互作用构成函数影响最终目标得分。只有如买中了或没买中花，考上了或没考上这样只关注单一因子的bool目标函数的时候才只有唯一目标，不需要函数。但如果仔细想，一件事都会有很复杂的别的收益和损失，比如下次是不是要吸取教训算算赔率，考试结束有没有真的获得傍身的长期受用能力？以及我今天德州虽然输了钱，但是不是交到了朋友，还是有很大价值？

决策变量自然就是时间安排的结果，即一定粒度的生命里每个时间段（比如现在我是每2h，听说俞敏洪是15分钟处理意见是，进步空间还很大）做哪个子项目的哪个事项的决策，以及微操中根据实际情况随时调整策略的最后执行结果。

认真一想，几乎只有时间是我们人类每个个体唯一可以自我决策的资源，而其他事情要么受到外界环境的限定，要么受到自身身体、心理、脑力的水平。当然，你做的时间决策如果和环境或内心不匹配而导致的低效，那就是时间决策本身的问题了。太过严重的时候，大脑自己都会发出警告。不过，我们最好在警告之前就更敏感地感知和细致的决策，因为警告的时候已经很严重了，这里的gap弥补是有很大收益的。

所以，我们要聆听并承认内心呼唤出的目标函数，以及时间规划是影响它的唯一可决策变量（我暂且把因为时间规划不合适导致的产出效率、获取收益等的损失都归结于此，做选择本质上也是时间的选择，有点牵强但方便模型叙述）。这两条是我们人生目标最优任务的公理。士为知己者死不是真的为知己者，而是为的子集目标函数更优值达成的希望而死的，愿意投入时间去做它，这一点必须先承认和接纳。

注意，规划这个时间本身也是需要时间成本的，因此粒度不能太细就是这个原因，否则要是超过一半的时间都在规划，就没看到事情的执行，那就本末倒置了。但是据观察，一般人可优化的方向是规划得太不明确和细致了。总之，我们采用最高效的方法来规划时间，而规划本身也要是高效的，规划的规划也……暂时递归到这里，不然还可以没完没了，但收益不大，直接截断。

好了，真到要干了却发现，这是一件极其困难的事。首先目标函数和各因子的关系极其难写，哪怕因子基本能写全；而各因子和时间安排之间的关系也非常复杂。但是做数学模型的人最不怕的就是复杂，正是复杂才体现我的价值，而我也相信任何复杂都只是因为没有拆解分析清楚结构罢了。

这里，目标函数和因子的关系可以简单先定义为加权求和，逐级归一化分解。由此，心理上只需要给与各级因子的权重即可。比如你认为你的生活和工作在你人生目标中的占比是多少？是1:1还是2:1，甚至工作是0，工作只为了能有钱生活而已？接着，给每个项目的总时间初始可以就按照因子对应项目的权重来就好了。但这还是太粗糙，所以我们以周为单位进行周期复盘，来调整这个时间占比，一方面之前的总量安排可能有问题，难以执行；另外，单位时间获得的每个因子的收益是不同的，原等效率的假设有误，在实践中慢慢调整是我发现唯一可行的方式了。至于周度的选择，到1天太繁琐，一个月反馈和响应都太慢。为了和工作等外界周期一致以增加匹配度，选择周度复盘作为不严谨的最优解了，暂时放觉得收益不高的其他周期的探索。

这就是时间规划的冷启动总量到迭代的策略，在强化学习中，本就有收集信息的试探成本要付出，因此这个方式也是符合这一框架的。到最后会我发现，迭代起来以后，再加上实际如工作时间要求，家庭需求等的限制，基本不会再纠结到底因子加和权重合不合适、效率是否相同这类问题，而是直接能给出时间总安排。以及从对比和感受来反思后，会直接判断认为当下的安排是否是有利于自己最优人生长期目标的，要如何改进。

有了周度的总安排，接着就是微操了。即在一周的7 * 24小时中，给定了各项目总时间安排的组合条件，每2h是如何安排到具体每个时间槽构成组合的呢？

我把有效人生时间定为早中晚各4小时，其余12小时则是吃饭睡觉和放空时间，倒不是说，而是那几乎雷打不动，没有改变安排的空间。每4小时拆分成2个2小时的粒度进行子项目安排。一般是提前1天或此刻才来决定当下这2h做什么，因为和买葱问题一样，当下是信息最完全，决策效率最高的。有的比如固定的上班时间其实很容易，主要是其余生活和追求的子项目就在各处插空塞就好了。所以这样其实也会出现一周实践下来，发现并没有执行到预定的时间量，有的是局势有变，变化了也正常，但有的就属于约束不严，则以周为粒度去重新调整现在看起来刚刚好，因为这么大的人生项目不至于因为一周的偏颇就有多大影响，而再细则又要有过高的记录安排成本了。

2小时一次是个折中，也有互相拆解补充的情况。因为很多琐事根本用不了这么大块的时间，后续也会考虑进一步优化。理论上最细可以细到每个项目的具体一个事项的一个微操多少时间等，不过这种处理方式一般就是预估一个大概就开始干，细节略过，然后等1h看看是否符合预期，再调整估计和策略就是了。而当复杂项目要完美做完不可能时，就涉及到了ROI分析，事项的重要程度就很重要了，需要更多的微观决策。不过这些除了紧急特殊情况，不会去改到总项目时间的安排，而且这些就记在具体项目里了，不会写总项目上。一个复杂的事情是有很多微决策要做的，随时要保持清醒，很繁琐的话一定要借助记录工具。

这里，如果是定好的定时驱动，也会在周度复盘时确认完成；周度也会检查和安排一下下一周的周期和事件驱动项，心里有个底。因为往往伴随着准备，这些所花的对应项目的时间比较零散，但还是会约摸总量平衡地记录进去。而琐事的话，则需要如手机备忘录等更快捷记录和完成的高效工具，简单快速，不会去占用珍贵的大脑资源。

以上就是在我2023的为达成人生目标落地的时间规划实践的总结，还在逐步迭代和提升各种效率和最终人生目标的达成水平，明年再来和大家汇报。

基于强化学习框架的决策

前面一个part给出了我是如何时间管理为决策变量来优化人生项目目标的实践。但这里还漏了一个重要的问题，即便我们有个对人生目标的全局图景的函数，但是当下做的每件事，对每个目标因子的影响，到底怎么评估呢？

比如，现在有一碗白饭，等1小时可能会上菜，我现在有点饿，那现在就要吃吗？

我做饭有4根青椒要切，每次最多切3根，但是一次切越多难度越大，那我有必要着急第一刀就切3根吗？（这有点像小和尚和老和尚抢馒头吃的故事）

又比如，我要盖一栋3层楼房，在盖起来之前，我没地方住怕下雨被淋，那我应该选择先快速盖一个茅草屋到时候再拆，还是选择别浪费时间了，赶紧快速盖楼房呢？

再比如，我做一个搜索引擎，到底是应该先去把搜索展示条数加2条增加曝光拿收益，还是去研究点前沿算法，做点数据基建，这种可能没有直接收益，但可以带来希望或提高其他效率的事呢？

我以前在公司极致的对当前收益重视的文化里，是压根没想过其他事情的价值的，也轮不到我安排，KPI的直接压力也会使得我根本没空想。而在生活和追求中的决策，虽然较为粗糙，但要么简单，要么随心所欲，所以也没有遇到很大的麻烦。但实际上，这代表了很大一类问题，在一些长期大型的事件和项目的决策中，能起到非常重要的作用，是个底层的数学模型工具，非常有用。

它就是强化学习，我在去年来信里已经提到，遗憾今年还没能进入理论的深入学习和实践，但人生上的应用已经先行了。

首先，在人生这样一个lifelong的项目里，其优化目标非常适用强化学习的模式，总目标为各期收益的折现和，用强化学习的术语即即回报（return）为各期奖励（reward）的指数级数前n项的和：

其中，这个折现因子r类似金融中计算折现价值的意思，那里是因为资金本就有利率代表的时间价值，这样计算才是等价的可用当期现金值预计可得的未来的现金流。但是强化学习这里r也可以等于1，即任何时候吃这碗饭的价值认为相同；或者如一局围棋那样，只有最终胜负有价值，其余步骤都是0，那折现与否也无所谓了；但这里不包括未知因素带来的收益波动的畏惧的降权，因为那个应该已经包括在R里了，如果波动本身也是心理损失，那也应该计算进去。

比如，这里可以简单的设定r = 1，然后R就可以去掉时间依赖，变成人生所有目标的加权总和，和上一个part的计算方法就一致了。

接着，无论宏观还是微观，每时每刻我们都在做决策，每个决策的目标都是使得当下能获得足够多的奖励以及达成一个很好的状态以便未来有能继续获取基于G设定目标的更大收益。

因此每一次决策都是一个如下的决策优化问题：

即动作价值函数的最优，它等于当期奖励加上执行后的状态分布上最优状态价值的期望。而状态价值等于当前状态下最优策略下的动作价值函数的结果，而状态价值本身的定义是给定策略下的G，最优自然就是最优策略的G结果：

而这里的状态价值函数和策略价值函数分别原始定义和相互关系如下：

这里的推导用到的是大名鼎鼎的贝尔曼方程：

它基本也等价于应用很广的贝尔曼期望方程：

以上介绍基于自顶向下的方式倒序叙述（想详细学习的可参考：https://hrl.boyuai.com/），总之，我们把人生的每一次大小选择都看作在强化学习环境下的决策，我们需要制定我们应对所有可能状态的决策函数以达成总目标的最优；而整个环境由状态和决策到下一决策的分布函数来描述，基本也和wfst的结构一致。

因此，我上一部分实践出来的人生项目的执行方法，现在回看，基本也符合了强化学习的策略制定方法。同时，因为人生项目太复杂，我对决策进行了分层，使得每一次决策都能在给定范围内讨论而不至于打架混淆，比如周度的项目复盘就是最顶层分配各项目时间总量的决策周期，采用周期驱动的方式，作为决策的回合发生的频率，是综合考虑了决策效率本身和决策及时响应性调整来的。这是个决策工作，另外的周度例行执行是直接执行，不是一个性质，只是有时为了方便同周期相位相邻做了而已。而因为整个项目是递归的树结构，可以BFS或DFS推进，可以轻松地做到不重复不遗漏的没有记忆负担的分析完所有当下关注的子项目。

而具体每天中每个2h干什么的决策，则是基本在周度规定的总量内，根据当下个人状态和外界环境需求调整来的，比如正常工作时间那就默认工作，当个人灵感迸发的时候，就做点创作型工作，累了就睡觉等等。再进入这2h内部，那就是子项目内具体事情的微操决策了，包括对一个子事项信息的收集分析、制定目标和局势的分析、决策和最终制定执行的全过程。而周期驱动和事件驱动的事都属于各子项目内的子事项，只不过前者已经制定好了周期执行的策略，每周来回顾看要不要改，后者则是根据外界环境来确认执行时间。无论哪个驱动，这些固定时间执行的事基本都是结果型的简单事情，比如去打疫苗，游玩，开会，会定时完成，外界环境也不允许你随意拖延，但是有的则是还有不确定的决策要做了才能执行，甚至还处于信息收集和后续分析的阶段，这些就应该在具体的项目表里记录，其余这些才直接记在汇总的备忘录里。

最后，因为效率的原因，一些琐事会随时被外界驱动，我们得有个能快速记录的地方（微信笔记指定、随手的纸笔等），一方面记录做后即焚的小事，比如拿快递、倒垃圾等；另外是项目内要记录事项的快照，等完成后周度再汇总进去；或是一些还待归档，提醒长期思考的内容的等等。另外，对于外界的干扰性的小事，打个招呼类的不用过脑子就pass了，都可以以天为单位集中处理，当下怕忘记也记在备忘录留个索引就好了，除非火烧眉毛，否则都不应该打断当下本在执行的更难的事。总的来说，因为我们要应对未知环境和自身的各种未知波动，所以必须在宏观时间安排上就留足buffer的时间，来在休息时间中弹性地执行波动的部分，提高安排完成率。甚至休息本身也有隐含的人生价值，人的状态保持是需要很小心维护的，它和时间一样，是一切事情得以推进的前提，甚至状态不佳还会产生破坏性作用，年终前我经历了一次这样积累后的崩盘，长了教训了。

也终于，我不再独立地看待每一个事项，去仅仅盯着档期收益而不顾未来。有了强化学习理论的指导，我能够实施得更加有的放矢。

当然，受限于人不同时期的认知水平、目标不可控的变化等，即便我这么做，里面已经有很多框架性的做法为了提升决策效率而损失了不少精度。从上帝视角看，我的决策结果还是很粗糙的，但这是我得把决策本身的时间成本考虑进去的条件下做到的最优了。至于强化学习中常说的探索和挖掘的平衡，那其实是给定目标后决策执行后的呈现结果，就是会发现我会一边做点本职工作，一边去探索边界，但那不是直接目标，所以也不必纠结。决定探索和挖掘边界和度的应该是个体本无法直接干预的性格因素，人活着为了自己，性格是自己最重要的表征，怎么可能不顺势而为，去强行改呢？

人间博弈的深度感悟

以上两个部分合起来算是说清楚了今年正式实践以强化学习框架建模人生项目的理论基础和实践成果了。接着，我想继续聊聊，自202106开启博弈论建模人间百态后的深度体验，这部分也是关于人生强化学习决策中贯穿宏微观的最重要的基本决策结构。因为除了少量如高考的虚拟环境，它不会对抗，可直接静态优化外，固定的环境并不存在，我们处在的是一个由很多智能体组成的博弈子环境，每个游戏都有其规则，随时随地都在玩游戏，做决策。

这边我想就截至目前我所看所想所实践下来的内容，来总结一下在博弈场景下做决策的方法论策略和一些重要的观察结论。博弈场景的决策能力和面对无博弈的物理世界的智力是至少同等重要的，而且随着事情的复杂和真实，会逐渐越来越重要。

博弈流程

一项博弈需要经过以下步骤来完成：

确定议题范围：当下要做的项目/事项是什么

收集相关信息：准确的和不准确的分布（形式和参数）

进行经验判断：筛选和加工信息，推断更多隐藏信息

博弈局势分析：把已知信息和判断纳入博弈框架，包括对手的目标、策略结果函数（完全or完美信息博弈）

目标函数制定：所有可行解的所有可能结果（包括自身，对手和环境的（随机）因素）的当前收益和状态价值估计，计算每个解的期望收益或偏好

制定策略：在自己的可行空间内（分清楚什么可行什么不行），对所有可能局势环境写出局势策略函数，假定对手也足够聪明就纳什均衡策略，有机可乘就剥削策略，甚至更聪明地创新一个合作博弈

实施策略：按既定策略实施，如果中途有新的信息，判断，局势，目标的变化，导致策略的变化，则随时动态调整实施的结果，往复进行。

小到何时去哪买葱，中到NBA的劳资双方的谈判，大到人生和环境的相处逻辑，再大到整个人类发展的基本行为结构，每一项涉及到多智能体参与的博弈场景，都可以用如上的流程进行推进安排。而那些哪怕最简单的静态环境，也可以等效为对手是个固定策略者，采用剥削策略制定策略就好了。

每个事项因为性质的不同每项工作需要的时间和是否重要也不尽相同，比如办事类的（办户口、港澳通行证等）最繁琐的其实就是收集信息；而有些未知的领域难的在于不确定信息的判断和估计，甚至估计类算法是解决这个问题的学科了；博弈局势和制定策略的一般场景都不复杂，即使没专门学过大部分想当然的直觉结果都不会错，但是专门构造的德州、围棋等这里就作为重点了；目标函数在标准化工作下也容易，但是涉及个人感受和追求的，量化也是有困难的；最后的执行在智力为主的游戏中往往容易，而一些如建筑、运动、团队合作等需要身体、精神，多人配合的场景，实施才是最困难的。

每个环节和最终成品都同质化完全竞争的话，那每个环节的价值就是成本，最后的总售价就是总成本。除非你能提供超额价值，形成局部垄断的产品特点，你才能分到原本不属于这个环节的利益，拥有话语权。商业世界的分工博弈刚好也符合这个模型，有了李佳琦或董宇辉，才使得产品能卖出去，否则没有收益，那自然这些钱基本就归他分了，其他人在那乐什么呢？关你什么事？或许能分到一点点残羹冷炙吧。

如果信息不足、分析不清楚局势，那就要承认这个劣势，并在承认的基础上制定要不要进行游戏和怎么进行的策略，而不要忽略或寄托于别人不来剥削你。每件事的发生上帝都一定设计了严格的因果链条，只是你可能还不知道而已，但一定有人比你清楚而获得优势了。每件事都去赤裸裸地分析每个人的利益，是最不坏的选择，别被忠诚和道德给害了。

博弈参与者的水平和结果层次

我们能够自己决定自己在可行空间内的策略，但是无法控制别人的策略。如果能够用别人听得懂接受的方式去让他觉得受益愿意听从并且自己获取更高收益的做法，那是可遇而不可求的。于是我发现因博弈双方水平和匹配程度的不同，可能形成如下几类博弈结果：

小人层次：互相算计，单次博弈，不顾后果，无法从有信用的合作博弈中获得更多。旅游景点的骗局、缺斤少两的商家就是典型。

聪明层次：互相算计，同时愿意探寻信用或法律规则下通过合作博弈达成更优目标的方法，但只要可能，仍然想剥削对方，分走更多蛋糕，反而有时会增加博弈成本。比如，知道底价的买家偷偷和卖家讨价还价；囚徒困境中愿意一起不告密却时刻想着伺机而动的囚徒；参加商家设计的双方都认为一定有利可图的好评返现活动而商家时刻想着回本顾客想着薅更多羊毛等等。

君子层次：在聪明基础上，假定对方也均衡的条件下，直接给出没有讨价还价空间的方案，并迅速高效达成一致完成交易。比如在比较均势的分蛋糕时，直接就大家均分了；考虑到男女平等，过年的假期双方家各去4天，就不要再掰扯了。

爱情层次：男主得了绝症命不久矣，续命需要换肾但手术危险，甚至可能危及对方生命。女主因为爱情愿为男主冒死一搏，男主害怕女主安危，自杀殒命。如果女主绝情离去，事实结局还是她活下来，男主死去，但是心理意义的价值可就天差地别了。爱情层次是很危险的，需要双方在君子的前提下还能有足够的利他目标，以及灵魂上的匹配。

每个层次的结果都需要双方都是这个层次才能够达成博弈结果的对应层次，否则都只能降为低级别的层次。比如聪明遇见小人就只能一起小人，君子遇见前2者也一样，而爱情遇见小人甚至可能被骗得体无完肤，聪明会给她个情绪价值来利用，而君子可能会选择离她远去。

我们在人生中，可以看看自己在不同时间、场景的能力，自己能达到哪个级别，对方是哪个级别，来决定最优的游戏方法。如果眼见着就是个要被割韭菜的局，那就赶紧下桌，比如炒股。

博弈收益结果分类和判断

我要提醒一个点，只有自己才是自己的唯一利益代表人，父母只能帮你一个阶段，亲人出于道德关系只是一般不过度剥削，而朋友只是觉得还有合作博弈收益不骗你，陌生人的话就什么都有可能了。因此，人类每个个体的生活，实际上每天都处于一场没有硝烟的战争中。因为我们都是社会机器的一环，互相分工合作，几乎没有任何一件事能独立完成，博弈也就无处不在。

一个孩子有18年+的时间来明白这一点，成年要是还没明白就要自我剥削了。

所以，在你听到任何人给你决策建议，打着某旗号强烈要求或呼吁时，这背后十有八九是他有自己的目的，在剥削那些还判断不清的韭菜上当，不过倒也不全是如此。基于此，一般的人间博弈按结局分一般有以下4种：

零和的一方受益一方受损：德州扑克，或者单方面占据别人的空间、物品、钱财等等；

非零和的一方受益一方受损：比如借了锄头不还，但是用锄头创造了超过锄头的价值，一般是正和的，也可能不超过的负和，但损人不利己的情况一般不会真实发生，模型上也一定可以解释为其他没有纳入的收益导致；

一方受益一方无关：比如你需要用一下保安的梯子，拿走我用不了的优惠券等等，无关也指基本可以忽略，这种情况下，无关方可以获得长期人情或信用价值，或干脆修改合作博弈规则，分得一点均衡利益；

都受益：典型的合作博弈结果，因为信用和法律使得合作可行，创造的收益按照均衡状况分。

所以任何时候，我们都可以从我们的博弈层次，以及判断当前对方给与的建议可行解，来判断属于以上哪一种。除了纯零和和不太可能发生的负和游戏外，一般的博弈都涉及因合作带来的总收益，一般合理的结果就是都受益，而且按照纳什均衡分配利益。无关方和受损方都可以提出变成收益方的条件，否则下桌就是dominating解。

有了这样的判断，我们在小到分析卖肉的吆喝，中到学校、公司给我们制定的行为准则，大到国家给公民制定的法律，国际社会的纷争，都可以看到合理的那一面。我们要时刻警惕小到爱情大到家国情怀包装下的信息和精神控制，当不合理发生在自己身边时，能清晰的判断后据理力争或直接无声地行动。

比如老师和你说，要尊敬科学家，你知道这个建议的解背后，是谁在获益，你能获益，该接受建议或者再要点收益吗？

如何判断自己被剥削了？

这里还剩下最核心的问题，当面对事项一同分析决策后，得出了博弈结论，但并不清楚这个局势下，自己是否被剥削了，能否争取更多？这里我们明确定义一下这个问题并给出解决方法。

首先，剥削是相对于均衡的概念，即得先有均衡解，以它为标准的偏离，才叫剥削。如果偏离结果是得利更多，那就是剥削别人，否则就是被剥削。

那均衡解是什么呢？这很难计算，相比较德州扑克的gto解都算是简单了，它还是只是单纯的解空间大而已。而人生中面临的各种博弈，信息、局势都存在不确定因素，甚至都没有一模一样的案例参考，所以这里的均衡解只能暂且理解为平均判断下的信息和局势下的均衡解。比如早点的毛利率一般是x%，y级别的工程师工资一般是z等等，可以直接观察市场上博弈的结果作为平均解也行，也叫常情常理。而因为每个人的认知不同，对均衡解的判断也不同，如果方向相反，可能都认为被剥削了，相同则认为都有利可图，皆大欢喜。

这里从均衡和剥削对比的方法是分析事情原因的一个通用方法。即，不仅仅是博弈的均衡剥削的对比，任何事情的因果联系结果，都有平均看来的推断或分布。我们分析和定位一件事情发生的原因，就应该找其中和常情常理不同的，并这个改造成结果改变的最大的那个，要综合变化量和灵敏度一起来看。比如一个轻生的人在湿滑的桥上摔下去了，你不能怪下雨或牛顿，而轻生才会不顾危险乱走才是引起发生危险概率变大的原因。

哎，我就是这么个死理性派，听说那些在社会上摸爬滚打的人，从来也没有学过这些理论，但是实践上却几乎是按照我推理出来的结论实行的，就像Kenny虽然不懂GTO但是打得却和电脑无异那样神奇。可是能这样死理性派地分析，还有举一反三的泛化能力，虽慢但深，这何尝不是我的禀赋呢？

最后，我用这禀赋总结了人间博弈的数学模型。

人间三定律

1. 理性人假设（经济学基本定律）增广：所有人都在其当下能力（收集、处理信息、决策、执行）范围内选择当下内心定义目标下以自我需求为重点的最优选择，任何内外条件的改变（比如事后复盘，换个人来做）所导致的不同结果，都可以归结为当时的决策五元组（目标、收集、处理信息、决策、执行）的区别；

2. 人类任何形式的沟通（个人、公司、国家），本质都是在寻找合作博弈双方都有利益点的机会，来可行地获得更大的自己的目标偏好收益值；

3. 个人状态和外界环境变化导致决策五元组状态瞬息万变，合作不成是常态，破裂则是必然；

人间三定理

1. 人类社会是以每个理性人作为参与对象构成的规模巨大的博弈结构，也由一个个小的博弈序贯地组成，每个决策都是满足每个理性人自以为是的最优的；而因为能力有限、理想纳什均衡并无法达到，只能达到自以为是的纳什均衡（即能力限度下构建和计算出的，认为对方也有同等决策水平的，总收益一定的理想均衡解（此时对方不能改变获益可以自动剥削他，我方也已经达成了最优选择，无法再做调整））；

2. 人类社会总效用的产生效率要远低于有上帝安排的帕累托有效社会，而只是一个总体发展速度处于很低水平的基于各自自我需求效用偏好的纳什均衡的社会；

3. 合作博弈只在存在多次和强有力的执行规则下有效，否则亡命之徒或一纸空文的法律无法支撑它，而组织的长期整体发展水平从相同的基础开始后，就取决于合作博弈达成的水平和效率。

不一定完善，先占个坑，后续慢慢证明和补充。我只是想获取当下思考奖励和推进后续迭代的状态价值，明年再来看！

MatheMagician公众号全年的文章回顾

终于来到这个传统板块，距离新年的钟声只留下最后1h+，我一定会压哨完成的！

数学：

《对称思维的妙用之从解题到本质（六）——网红鸭子半圆概率问题的多种解法》：久违的数学小品长文，文思泉涌，停不下来！

《一道北大强基题背后的故事（七）——特征根公式的来龙去脉》：意外爆火，原来标题这么重要！

《接着首发！2023全国1卷数学压轴题解析》：继年度数学模型试题解析后的又一年度系列；

《你真的懂分数吗？（五）——概率与期望》：生活学习中无处不在的数学思考，是我的特色；

《牛顿运动定律的谜团（三）——比动量守恒更进一步》：数学写到了物理，居然还是数学模型新框架的首秀，不过随着年终活动文章太多，终结篇要跨年了！

魔术：

《好魔术背后的秘密》：思维升级，全面升级；

《这到底是怎么想到的！！！》：带给我震撼的分享，魔术主题分享开启；

《视错觉与魔术（二）——橡皮筋的奇迹》：儿时回忆的主题重现，真甜；

数学魔术：

《文字对称中的数学与魔术（八）——魔术《抓牌奇迹》与系列总结》：跨年重磅系列完结；

《用排列组合来编码通信（七）——《我的5/4张牌的预言》》：逐渐硬核化；

《De Bruijin序列与魔术（四）——De Bruijin序列的拓展结果》：加速硬核，停不下来；

《魔术《4 Kings 折纸》的三重境界（四）——魔术效果的突破》：温故而知新，理论新突破！

随笔：

《成年了，该如何与父母和解？》：生活点滴，有感而发；

《回忆雅礼朱哥二三事》：儿时敬爱，以此缅怀；

《残忍的资本世界——董宇辉小作文事件的博弈分析和感受》：重磅新闻，冲击式的体验分享；

活动（访谈、分享）：

《2023年马丁·加德纳聚会数学魔术分享之《不只是奇偶性的魔术》回顾》：例行公事，年度之约；

《记2023第4期雅礼中学魔术进校园活动》：疫情后重启，逐步恢复扩大！

《记第13届AMA深圳魔术大会》：可远观而不可亵玩的梦想近在眼前；

《昨日重现——记2023TME魔术表演项目》：不仅看，还要玩！

汇总下来，我们的数学-魔术-数学魔术循环，一共进行了3轮+，分别有21 + 1（《接着首发！2023全国1卷数学压轴题解析》为另增） + 4 + 20 = 45 + 1篇，另外增加随笔3篇，活动4篇，总计52 + 1篇，在周度更新基础上增加1篇。加上去年的《写给MatheMagician读者的第4封新年来信——暨2022年终总结与感悟》，共计54篇原创文章。

相比前年，文章数略有减少可以忽略，除了数学-魔术-数学魔术的铁三角继续发光发热外，今年的活动系列可谓是大放异彩，希望接下来能有机会继续保持这样的活力，真刀真枪去干！

创作危机？不存在的，下一轮文章正如滔滔巨浪涌出我的大脑，跃然纸上！

2024，不见不散！

爱你的MatheMagician

我们是谁：

MatheMagician，中文“数学魔术师”，原指用数学设计魔术的魔术师和数学家。既取其用数学来变魔术的本义，也取像魔术一样玩数学的意思。文章内容涵盖互联网，计算机，统计，算法，NLP等前沿的数学及应用领域；也包括魔术思想，流程鉴赏等魔术内容；以及结合二者的数学魔术分享，还有一些思辨性的谈天说地的随笔。希望你能和我一起，既能感性思考又保持理性思维，享受人生乐趣。欢迎扫码关注和在文末或公众号留言与我交流！