你好,游客 登录 注册 发布搜索
背景:
阅读新闻

OpenAI MiniWoB环境介绍:与网站交互的强化学习代理基准

[日期:2016-12-19] 来源:机器之心  作者: [字体: ]

Mini World of Bits,简称 MiniWoB,是一个用于与网站交互的强化学习代理的基准。其代理可以感知小网页(210x160 像素)的原始像素和产生键盘和鼠标动作。

  该环境用 HTML/Java/CSS 写成,设计的目的是为了测试代理与常见网页浏览器元素的交互能力,这些元素包括按钮、文本框、滑块、日期选择器等等。这个基准的环境可以通过 OpenAI Universe 获取。

  • 发布地址:http://alpha.openai.com/miniwob/index.html

  • 环境预览地址:http://alpha.openai.com/miniwob/preview/index.html

  • OpenAI Universe:https://universe.openai.com

MiniWoB 环境

  其中的每一个环境都是一个 210 像素高、160 像素宽的 HTML 网页(即与 ATARI ALE 模拟器的尺寸相同)。其最顶上的 50 个像素(黄色背景)包含了任务查询——一个关于代理应该在坏境所做的事情的描述。该环境的逻辑是用 Java 编写的,其会监控事件并分配奖励(reward)。我们认为 MiniWoB 就类似于是视觉识别领域的 MNIST 数据集,其中的这些环境很小、是自包含的(self-contained)、并且含有许多代理在浏览互联网时需要克服的挑战。

该基准中的任务包含许多常见的 UI 元素,范围涵盖从简单(比如点击取消按钮)到复杂(比如,搜索从 SFO 到 LAX 的 2016 年 12 月 5 日的航班并预定最便宜的机票)等各种难度。

  

  基准

MiniWoB 基准包含了一系列训练/测试分开的环境。其终极目标是在无需太多交互步骤的情况下在测试环境上良好地执行任务。被测试的模型可以在训练环境中进行不限次数的预训练。我们也计划发布训练环境的演示,因为许多模型如果仅靠强化学习,可能难以取得良好的效果。

12/05/2016, Version 0 80 environments train/test split COMING SOON

  贡献环境。因为该环境目前还非常小,而且也很容易通过 Java/HTML/CSS 书写,所以我们也鼓励社区为未来该基准的发行版提供贡献。

MiniWoB 的完整源代码将在未来几周通过 GitHub 发布,所以贡献也将变得非常方便。

启动代码

这些环境都被整合到了 OpenAI Universe 之中。

为了训练强化学习代理,我们调整了运行 MiniWoB 环境的 Universe 指令。下面的简单代码可以用来创建一个可以以 5 FPS 的速度在 MiniWoB 的 160x160 像素的「游戏」区域随机点击的代理:

 

收藏 推荐 打印 | 录入:admin | 阅读:
相关新闻      
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款