爱上海同城

Q达

发布时间:2023-04-24 19:11:53

爱上海同城学习动作值函数(也称Q函数)有两个输入值,分别为“STATE”和“ACTION”。它将返回在该状态下(STATE)执行该动作(ACTION)后的预期未来奖励。我们可以认为,Q函数即是一个在Q-TABLE上滚动的读取器,我们可以用它来寻找与当前状态(STATE)关联的行,以及与我们的动作(ACTION)相关联的列。它会从相匹配的单元格中返回Q值,该值便是“预期未来奖励”。在我们探索这个环境(ENVIRONMENT)之前,Q-TABLE会给出同一个任意固定值(多数为0)。随着我们对环境的探索,Q-TABLE将会利用贝尔曼方程迭代更新Q(S,A)以给出一个更好的近似值(见下文!)。建立一个Q-TABLE,横轴为M(动作值),纵轴为N(状态值)。初始值为0。在这里,我们就可以了解年前那篇文章里所提及的EXPLORATION/EXPLOITATIONTRADEOFF的重要性了。1)指定探索速率EPSILON,从1设置起,作为我们随机采取的步长。一开始,这个速率应该处于最大值,因为我们并不知道Q-TABLE中的任何一个值。这也就意味着,我们要通过随机选择动作做出更多的EXPLORATION(探索)。2)生成随机数。如果该数大于EPSILON值,那么我们就开始“EXPLOITATION”(这也就意味着,我们利用的已知信息来选择每一步的最佳动作)。否则,我们就开始“EXPLORATION”。实施步骤3中选择的动作A,得到一个新的状态S’和奖励R(正如我们在强化学习流程中看到的)。在起点时,你可以选择向右或是向上。因为EPSILON速率比较大(即使我们对环境并不了解),所以选择随机。比如说……向右走。我们发现了一块芝士(+1),那么现在我们可以更新最初的Q值并且向右移动。如何实现这一行径呢?贝尔曼方程式可以做到。2)然后,将初始化Q值与ΔQ(开始,向右)和学习率的积相加。通过学习率,我们可以知道,网络在生成新值时,是有多么快地遗弃旧值。如果学习率是1,那么新的预估值就是新的Q值。大家好,我是AI搬运工致力于将国外的AI好文,翻译成大家都懂的中国话!用有趣的文字,教你强化学习入门知识(下)用有趣的文字,教你强化学习入门知识(上)

  • 选择布局
  • 设置皮肤
    • 博客控1.0
      类似于博客的风格,相信博客控的你会喜欢的!
    • 温馨小窝1.0
      金窝银窝,不如我们文学窝,在漫写短文网做个窝吧!
    • 个性浮动1.0
      “博客控”和“小窝”神马的都是浮云,老在我眼前抢风头,不服气?你搓我~
  • 更换背景图
    • 安静
    • 台历
    • 芹菜
    设置颜色
    • 空间名:   
    • 签 名:   
    • 简 介:   
    • 标 题:   
    • 正 文:   

Q达

总访问量:439 空间地址:
关注TA 0人关注


Ta很低调,还未开始展现自己…

最近访客

文集

没有任何文章

相关新闻

征文主题2023-04-24 19:11:53
征文主题2023-04-24 19:11:53
一首歌,一段故事2023-04-24 19:11:53
遇见2023-04-24 19:11:53
深夜故事2023-04-24 19:11:53
你曾是少年2023-04-24 19:11:53
后来的我们2023-04-24 19:11:53
告别2023-04-24 19:11:53
我怀念的2023-04-24 19:11:53

友情链接

上海后花园论坛_上海花千坊_爱上海同城论坛-夜上海论坛社区