杭州西湖铭楼_杭州18坊—杭州夜网论坛娱乐信息

Q达

发布时间：2023-04-24 19:11:53

爱上海同城学习动作值函数（也称Q函数）有两个输入值，分别为“STATE”和“ACTION”。它将返回在该状态下（STATE）执行该动作（ACTION）后的预期未来奖励。我们可以认为，Q函数即是一个在Q-TABLE上滚动的读取器，我们可以用它来寻找与当前状态（STATE）关联的行，以及与我们的动作（ACTION）相关联的列。它会从相匹配的单元格中返回Q值，该值便是“预期未来奖励”。在我们探索这个环境（ENVIRONMENT）之前，Q-TABLE会给出同一个任意固定值（多数为0）。随着我们对环境的探索，Q-TABLE将会利用贝尔曼方程迭代更新Q（S,A）以给出一个更好的近似值（见下文！）。建立一个Q-TABLE，横轴为M（动作值），纵轴为N（状态值）。初始值为0。在这里，我们就可以了解年前那篇文章里所提及的EXPLORATION/EXPLOITATIONTRADEOFF的重要性了。1）指定探索速率EPSILON，从1设置起，作为我们随机采取的步长。一开始，这个速率应该处于最大值，因为我们并不知道Q-TABLE中的任何一个值。这也就意味着，我们要通过随机选择动作做出更多的EXPLORATION(探索)。2）生成随机数。如果该数大于EPSILON值，那么我们就开始“EXPLOITATION”（这也就意味着，我们利用的已知信息来选择每一步的最佳动作）。否则，我们就开始“EXPLORATION”。实施步骤3中选择的动作A,得到一个新的状态S’和奖励R（正如我们在强化学习流程中看到的）。在起点时，你可以选择向右或是向上。因为EPSILON速率比较大（即使我们对环境并不了解），所以选择随机。比如说……向右走。我们发现了一块芝士（+1），那么现在我们可以更新最初的Q值并且向右移动。如何实现这一行径呢？贝尔曼方程式可以做到。2）然后，将初始化Q值与ΔQ（开始，向右）和学习率的积相加。通过学习率，我们可以知道，网络在生成新值时，是有多么快地遗弃旧值。如果学习率是1，那么新的预估值就是新的Q值。大家好，我是AI搬运工致力于将国外的AI好文，翻译成大家都懂的中国话！用有趣的文字，教你强化学习入门知识（下）用有趣的文字，教你强化学习入门知识（上）