机器学习相关知识与实践指南
强化学习中的问题与解决方法
在强化学习中,智能体可能会在环境的同一区域停留一段时间,这段时间内它的所有经验都会非常相似,这会给学习算法带来偏差。智能体可能会针对该区域调整策略,但一旦离开该区域,其表现就会变差。为解决这个问题,可以使用回放记忆,即智能体基于过去经验的缓冲区进行学习,而不仅仅依赖于最近的经验。
另外,离策略强化学习算法在智能体遵循不同策略时学习最优策略的价值,Q - 学习就是这类算法的一个很好的例子。相比之下,在线策略算法学习智能体实际执行的策略的价值,包括探索和利用。
TensorFlow 模型的训练与部署
SavedModel
SavedModel 包含 TensorFlow 模型,包括其架构(计算图)和权重。它存储为一个目录,包含一个 saved_model.pb 文件(定义计算图,以序列化协议缓冲区表示)和一个 variables 子目录(包含变量值)。对于包含大量权重的模型,这些变量值可能会分散在多个文件中。SavedModel 还包括一个 assets 子目录,可能包含额外的数据,如词汇文件、类名或该模型的一些示例实例。一个 SavedModel 可以包含一个或多个元图,元图是一个计算图加上一些函数签名定义。可以使用命令行工具 saved_model_cli 或使用 tf.saved_model.load() 在 Python 中加载并检查 SavedModel。
TF Serving
TF Serving 允许部署多个 TensorFlow 模型(或同一模型的多个版本),并通过 REST API 或 gRPC API 使所有应用程序轻
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



