生成设计中的人工智能直觉与创意互动项目探索
1. 生成设计中的强化学习应用
1.1 随机游走实验的动作、观察与奖励定义
在随机游走(Random Walk,RW)生成过程中,有一系列明确的定义。
- 动作定义 :在 RW 实验里,智能体在有限的三维体素网格内随机决策向六个方向移动,其移动轨迹会被记录为生成的形态。这里的强化学习(RL)动作被视为离散动作,向量大小为 7。
- 观察定义 :观察状态的定义描述了生成过程中的当前状况,通常包含两种信息:形态的整体矩阵数据类型表示,以及一系列重要的奖励导向值。在 RW 示例中,形态会转换为基于体素的整数矩阵(1 或 0),表示体素是否被占用。同时,状态中还包含额外的奖励导向信息,如智能体的当前位置和实时奖励评估数据。
- 奖励定义 :这是 RL 训练过程中最关键的部分,通常是基于设计意图的定量评估结构。初始奖励定义是在体素网格中确定一些奖励位置(代表多米诺地板),鼓励行走者寻找并连接这些地板。随着进一步发展,形成了更全面的结构,具体奖励类型如下:
| 奖励类型 | 描述 |
| ---- | ---- |
| 塔楼类型奖励(R1) | 鼓励智能体生成类似塔楼的形态,奖励计算基于形态的高度。 |
| 结构逻辑奖励(R2) | 采用类似金字塔的结构逻辑,底部的奖励应大于上方堆叠部分。 |
| 空间连通性奖励(R3) | 在水平方向上,如果一个生成的体素与其四个相邻体素相连,智能体将获得空间连通性的正奖励。 |
| 空间创造奖励(R4) | 垂直方向上两个体素
超级会员免费看
订阅专栏 解锁全文
708

被折叠的 条评论
为什么被折叠?



